
Multi Fetch MCP Server

2025.05.05
0
Python网页抓取内容转换开发效率
mcp-server-multi-fetch 是一个基于 Fetch MCP Server 的项目,提供网页内容抓取功能。该服务使大型语言模型(LLMs)能够从网页中检索和处理内容,并将 HTML 转换为更易处理的 Markdown 格式。通过指定 `start_index` 参数,可以分块读取网页内容,直到找到所需信息。
View on GitHub
Overview
基本能力
产品定位
mcp-server-multi-fetch 是一个用于网页内容抓取和处理的 MCP 服务器,旨在帮助 LLMs 更高效地获取和处理网页信息。
核心功能
- 网页内容抓取:支持从指定 URL 抓取内容,并将其转换为 Markdown 格式。
- 分块读取:通过
start_index
参数实现分块读取网页内容。 - 多 URL 并发抓取:支持同时抓取多个 URL 的内容。
- 自定义配置:支持配置 robots.txt 遵守、用户代理和代理服务器。
适用场景
- LLMs 内容获取:帮助 LLMs 从网页中获取和处理信息。
- 数据抓取与分析:用于需要批量抓取网页内容的场景。
- 内容转换:将 HTML 内容转换为更易处理的 Markdown 格式。
工具列表
- fetch:抓取单个 URL 的内容并转换为 Markdown。
url
(必填):要抓取的 URL。max_length
(可选):返回的最大字符数(默认:50000)。start_index
(可选):从指定字符索引开始抓取内容(默认:0)。raw
(可选):获取原始内容而不转换为 Markdown(默认:false)。- fetch_multi:并发抓取多个 URL 的内容。
- 输入为对象数组,每个对象包含与
fetch
相同的参数。
常见问题解答
- 如何配置代理服务器?
- 使用
--proxy-url
参数配置 HTTP(S) 或 SOCKS5 代理。 - 如何忽略 robots.txt?
- 添加
--ignore-robots-txt
参数到配置中。 - 如何自定义用户代理?
- 使用
--user-agent=YourUserAgent
参数自定义用户代理。
使用教程
使用依赖
- 可选:安装 Node.js,以使用更强大的 HTML 简化器。
安装教程
- 使用 uv(推荐):
- 无需特定安装,直接使用
uvx
运行mcp-server-multi-fetch
。 - 配置示例(Claude.app):
json "mcpServers": { "fetch": { "command": "uvx", "args": ["mcp-server-multi-fetch"] } }
调试方式
- 使用 MCP inspector 调试服务器:
- 对于 uvx 安装:
bash npx @modelcontextprotocol/inspector uvx mcp-server-multi-fetch
- 对于特定目录安装:
bash cd path/to/servers/src/fetch npx @modelcontextprotocol/inspector uv run mcp-server-multi-fetch