Fetch MCP Server

Fetch MCP Server

2025.04.15 5

TypeScript网页内容抓取Markdown 转换内容生成

mcp-fetch-node 是一个基于 Node.js 的 Model Context Protocol 服务器，专门用于从网页获取内容并将其转换为 Markdown 格式，便于大型语言模型（LLM）消费。该服务器支持分页读取、自定义用户代理以及遵守 robots.txt 规则，适用于需要从网页提取和处理内容的场景。

View on GitHub

Overview

基本能力

产品定位

mcp-fetch-node 是一个专门用于网页内容抓取和处理的 MCP 服务器，旨在为 LLM 提供结构化的网页内容。

核心功能

网页内容抓取：从指定 URL 获取网页内容。
Markdown 转换：将 HTML 内容转换为 Markdown 格式。
分页读取：支持通过 start_index 参数分块读取内容。
robots.txt 遵守：默认遵守 robots.txt 规则（可禁用）。
用户代理自定义：支持自定义 User-Agent。

适用场景

内容摘要生成：从网页中提取关键信息生成摘要。
数据采集：用于需要结构化网页数据的应用。
LLM 辅助工具：为 LLM 提供实时网页内容支持。

工具列表

fetch：抓取 URL 内容并转换为 Markdown。
url（必填）：目标 URL。
max_length（可选）：返回内容的最大长度（默认 5000）。
start_index（可选）：从指定字符索引开始读取（默认 0）。
raw（可选）：获取原始内容（不转换 Markdown）。

常见问题解答

如何禁用 robots.txt？：添加 --ignore-robots-txt 参数。
如何自定义 User-Agent？：添加 --user-agent=YourUserAgent 参数。

使用教程

使用依赖

确保已安装 Node.js 或 Docker 环境。

安装教程

Node.js 安装：

npx -y mcp-fetch-node

Docker 安装：

docker run -it tgambet/mcp-fetch-node

调试方式

启动服务后，默认在 8080 端口提供 SSE 接口。可通过以下命令测试：

curl http://localhost:8080/sse

许可证

该项目遵循 MIT 开源许可条款。