Multi Fetch MCP Server

Multi Fetch MCP Server

2025.05.05 0

Python网页抓取内容转换开发效率

mcp-server-multi-fetch 是一个基于 Fetch MCP Server 的项目，提供网页内容抓取功能。该服务使大型语言模型（LLMs）能够从网页中检索和处理内容，并将 HTML 转换为更易处理的 Markdown 格式。通过指定 `start_index` 参数，可以分块读取网页内容，直到找到所需信息。

View on GitHub

Overview

基本能力

产品定位

mcp-server-multi-fetch 是一个用于网页内容抓取和处理的 MCP 服务器，旨在帮助 LLMs 更高效地获取和处理网页信息。

核心功能

网页内容抓取：支持从指定 URL 抓取内容，并将其转换为 Markdown 格式。
分块读取：通过 start_index 参数实现分块读取网页内容。
多 URL 并发抓取：支持同时抓取多个 URL 的内容。
自定义配置：支持配置 robots.txt 遵守、用户代理和代理服务器。

适用场景

LLMs 内容获取：帮助 LLMs 从网页中获取和处理信息。
数据抓取与分析：用于需要批量抓取网页内容的场景。
内容转换：将 HTML 内容转换为更易处理的 Markdown 格式。

工具列表

fetch：抓取单个 URL 的内容并转换为 Markdown。
url（必填）：要抓取的 URL。
max_length（可选）：返回的最大字符数（默认：50000）。
start_index（可选）：从指定字符索引开始抓取内容（默认：0）。
raw（可选）：获取原始内容而不转换为 Markdown（默认：false）。
fetch_multi：并发抓取多个 URL 的内容。
输入为对象数组，每个对象包含与 fetch 相同的参数。

常见问题解答

如何配置代理服务器？
使用 --proxy-url 参数配置 HTTP(S) 或 SOCKS5 代理。
如何忽略 robots.txt？
添加 --ignore-robots-txt 参数到配置中。
如何自定义用户代理？
使用 --user-agent=YourUserAgent 参数自定义用户代理。

使用教程

使用依赖

可选：安装 Node.js，以使用更强大的 HTML 简化器。

安装教程

使用 uv（推荐）：
无需特定安装，直接使用 uvx 运行 mcp-server-multi-fetch。
配置示例（Claude.app）： json "mcpServers": { "fetch": { "command": "uvx", "args": ["mcp-server-multi-fetch"] } }

调试方式

使用 MCP inspector 调试服务器：
对于 uvx 安装： bash npx @modelcontextprotocol/inspector uvx mcp-server-multi-fetch
对于特定目录安装： bash cd path/to/servers/src/fetch npx @modelcontextprotocol/inspector uv run mcp-server-multi-fetch

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。