Fetch MCP Server

Fetch MCP Server

site icon
2025.03.24 3
Python网页内容抓取浏览器自动化OCR处理文档解析浏览器自动化内容生成
mcp-server-fetch 是一个基于 Model Context Protocol 的服务,提供网页内容抓取能力,支持浏览器自动化、OCR 和多方法内容提取。该服务使 LLMs 能够从网页中检索和处理内容,包括需要 JavaScript 渲染或使用防爬技术的网页。
View on GitHub

Overview

基本能力

产品定位

mcp-server-fetch 是一个专注于网页内容抓取和处理的工具,特别适用于需要处理复杂网页内容的场景。

核心功能

  • 使用浏览器自动化(undetected-chromedriver)抓取网页内容
  • 使用 OCR(pytesseract)进行文本识别和布局检测
  • 支持多种内容提取方法(HTML 提取、文档解析等)
  • 智能评分系统自动选择最佳结果
  • 支持自定义用户代理
  • 自动处理 cookie 同意横幅
  • 全页面截图捕获

适用场景

  • 需要从复杂网页中提取内容的场景
  • 处理需要 JavaScript 渲染的网页
  • 绕过防爬技术的网页内容获取
  • 文档解析(PDF, DOCX, PPTX)
  • 高质量内容提取和转换

工具列表

  • fetch: 抓取 URL 并将其内容提取为 markdown 格式
  • 参数:
    • url (string, 必需): 要抓取的 URL
    • raw (boolean, 可选): 获取原始 HTML 内容(默认: false)

常见问题解答

  • 如何自定义用户代理? 可以在配置中添加 --user-agent=YourUserAgent 参数
  • 支持哪些文档格式? 支持 PDF, DOCX, PPTX 等文档格式

使用教程

使用依赖

需要安装 Docker 环境

安装教程

  1. 构建 Docker 镜像: bash docker build -t mcp-server-fetch .
  2. 运行 Docker 容器: bash docker run --rm -i mcp-server-fetch

配置

添加到 Claude 设置:

{
  "mcpServers": {
    "fetch": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "mcp-server-fetch"
      ],
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

调试方式

启用调试日志可以跟踪评分决策过程

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。