Fetch MCP Server

Fetch MCP Server

site icon
2025.04.15 5
TypeScript网页内容抓取Markdown 转换内容生成
mcp-fetch-node 是一个基于 Node.js 的 Model Context Protocol 服务器,专门用于从网页获取内容并将其转换为 Markdown 格式,便于大型语言模型(LLM)消费。该服务器支持分页读取、自定义用户代理以及遵守 robots.txt 规则,适用于需要从网页提取和处理内容的场景。
View on GitHub

Overview

基本能力

产品定位

mcp-fetch-node 是一个专门用于网页内容抓取和处理的 MCP 服务器,旨在为 LLM 提供结构化的网页内容。

核心功能

  • 网页内容抓取:从指定 URL 获取网页内容。
  • Markdown 转换:将 HTML 内容转换为 Markdown 格式。
  • 分页读取:支持通过 start_index 参数分块读取内容。
  • robots.txt 遵守:默认遵守 robots.txt 规则(可禁用)。
  • 用户代理自定义:支持自定义 User-Agent。

适用场景

  • 内容摘要生成:从网页中提取关键信息生成摘要。
  • 数据采集:用于需要结构化网页数据的应用。
  • LLM 辅助工具:为 LLM 提供实时网页内容支持。

工具列表

  • fetch:抓取 URL 内容并转换为 Markdown。
  • url(必填):目标 URL。
  • max_length(可选):返回内容的最大长度(默认 5000)。
  • start_index(可选):从指定字符索引开始读取(默认 0)。
  • raw(可选):获取原始内容(不转换 Markdown)。

常见问题解答

  • 如何禁用 robots.txt?:添加 --ignore-robots-txt 参数。
  • 如何自定义 User-Agent?:添加 --user-agent=YourUserAgent 参数。

使用教程

使用依赖

确保已安装 Node.js 或 Docker 环境。

安装教程

Node.js 安装:

npx -y mcp-fetch-node

Docker 安装:

docker run -it tgambet/mcp-fetch-node

调试方式

启动服务后,默认在 8080 端口提供 SSE 接口。可通过以下命令测试:

curl http://localhost:8080/sse

许可证

该项目遵循 MIT 开源许可条款。