
Fetch MCP Server

2025.04.15
5
TypeScript网页内容抓取Markdown 转换内容生成
mcp-fetch-node 是一个基于 Node.js 的 Model Context Protocol 服务器,专门用于从网页获取内容并将其转换为 Markdown 格式,便于大型语言模型(LLM)消费。该服务器支持分页读取、自定义用户代理以及遵守 robots.txt 规则,适用于需要从网页提取和处理内容的场景。
View on GitHub
Overview
基本能力
产品定位
mcp-fetch-node 是一个专门用于网页内容抓取和处理的 MCP 服务器,旨在为 LLM 提供结构化的网页内容。
核心功能
- 网页内容抓取:从指定 URL 获取网页内容。
- Markdown 转换:将 HTML 内容转换为 Markdown 格式。
- 分页读取:支持通过
start_index
参数分块读取内容。 - robots.txt 遵守:默认遵守 robots.txt 规则(可禁用)。
- 用户代理自定义:支持自定义 User-Agent。
适用场景
- 内容摘要生成:从网页中提取关键信息生成摘要。
- 数据采集:用于需要结构化网页数据的应用。
- LLM 辅助工具:为 LLM 提供实时网页内容支持。
工具列表
- fetch:抓取 URL 内容并转换为 Markdown。
url
(必填):目标 URL。max_length
(可选):返回内容的最大长度(默认 5000)。start_index
(可选):从指定字符索引开始读取(默认 0)。raw
(可选):获取原始内容(不转换 Markdown)。
常见问题解答
- 如何禁用 robots.txt?:添加
--ignore-robots-txt
参数。 - 如何自定义 User-Agent?:添加
--user-agent=YourUserAgent
参数。
使用教程
使用依赖
确保已安装 Node.js 或 Docker 环境。
安装教程
Node.js 安装:
npx -y mcp-fetch-node
Docker 安装:
docker run -it tgambet/mcp-fetch-node
调试方式
启动服务后,默认在 8080
端口提供 SSE 接口。可通过以下命令测试:
curl http://localhost:8080/sse