Multi Fetch MCP Server

Multi Fetch MCP Server

site icon
2025.05.05 0
Python网页抓取内容转换开发效率
mcp-server-multi-fetch 是一个基于 Fetch MCP Server 的项目,提供网页内容抓取功能。该服务使大型语言模型(LLMs)能够从网页中检索和处理内容,并将 HTML 转换为更易处理的 Markdown 格式。通过指定 `start_index` 参数,可以分块读取网页内容,直到找到所需信息。
View on GitHub

Overview

基本能力

产品定位

mcp-server-multi-fetch 是一个用于网页内容抓取和处理的 MCP 服务器,旨在帮助 LLMs 更高效地获取和处理网页信息。

核心功能

  1. 网页内容抓取:支持从指定 URL 抓取内容,并将其转换为 Markdown 格式。
  2. 分块读取:通过 start_index 参数实现分块读取网页内容。
  3. 多 URL 并发抓取:支持同时抓取多个 URL 的内容。
  4. 自定义配置:支持配置 robots.txt 遵守、用户代理和代理服务器。

适用场景

  1. LLMs 内容获取:帮助 LLMs 从网页中获取和处理信息。
  2. 数据抓取与分析:用于需要批量抓取网页内容的场景。
  3. 内容转换:将 HTML 内容转换为更易处理的 Markdown 格式。

工具列表

  1. fetch:抓取单个 URL 的内容并转换为 Markdown。
  2. url(必填):要抓取的 URL。
  3. max_length(可选):返回的最大字符数(默认:50000)。
  4. start_index(可选):从指定字符索引开始抓取内容(默认:0)。
  5. raw(可选):获取原始内容而不转换为 Markdown(默认:false)。
  6. fetch_multi:并发抓取多个 URL 的内容。
  7. 输入为对象数组,每个对象包含与 fetch 相同的参数。

常见问题解答

  1. 如何配置代理服务器?
  2. 使用 --proxy-url 参数配置 HTTP(S) 或 SOCKS5 代理。
  3. 如何忽略 robots.txt?
  4. 添加 --ignore-robots-txt 参数到配置中。
  5. 如何自定义用户代理?
  6. 使用 --user-agent=YourUserAgent 参数自定义用户代理。

使用教程

使用依赖

  1. 可选:安装 Node.js,以使用更强大的 HTML 简化器。

安装教程

  1. 使用 uv(推荐)
  2. 无需特定安装,直接使用 uvx 运行 mcp-server-multi-fetch
  3. 配置示例(Claude.app): json "mcpServers": { "fetch": { "command": "uvx", "args": ["mcp-server-multi-fetch"] } }

调试方式

  1. 使用 MCP inspector 调试服务器:
  2. 对于 uvx 安装: bash npx @modelcontextprotocol/inspector uvx mcp-server-multi-fetch
  3. 对于特定目录安装: bash cd path/to/servers/src/fetch npx @modelcontextprotocol/inspector uv run mcp-server-multi-fetch

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。