Fetch MCP Server

Fetch MCP Server

2025.03.24 3

Python网页内容抓取浏览器自动化OCR处理文档解析浏览器自动化内容生成

mcp-server-fetch 是一个基于 Model Context Protocol 的服务，提供网页内容抓取能力，支持浏览器自动化、OCR 和多方法内容提取。该服务使 LLMs 能够从网页中检索和处理内容，包括需要 JavaScript 渲染或使用防爬技术的网页。

View on GitHub

Overview

基本能力

产品定位

mcp-server-fetch 是一个专注于网页内容抓取和处理的工具，特别适用于需要处理复杂网页内容的场景。

核心功能

使用浏览器自动化（undetected-chromedriver）抓取网页内容
使用 OCR（pytesseract）进行文本识别和布局检测
支持多种内容提取方法（HTML 提取、文档解析等）
智能评分系统自动选择最佳结果
支持自定义用户代理
自动处理 cookie 同意横幅
全页面截图捕获

适用场景

需要从复杂网页中提取内容的场景
处理需要 JavaScript 渲染的网页
绕过防爬技术的网页内容获取
文档解析（PDF, DOCX, PPTX）
高质量内容提取和转换

工具列表

fetch: 抓取 URL 并将其内容提取为 markdown 格式
参数:
- url (string, 必需): 要抓取的 URL
- raw (boolean, 可选): 获取原始 HTML 内容（默认: false）

常见问题解答

如何自定义用户代理？可以在配置中添加 --user-agent=YourUserAgent 参数
支持哪些文档格式？支持 PDF, DOCX, PPTX 等文档格式

使用教程

使用依赖

需要安装 Docker 环境

安装教程

构建 Docker 镜像: bash docker build -t mcp-server-fetch .
运行 Docker 容器: bash docker run --rm -i mcp-server-fetch

配置

添加到 Claude 设置:

{
  "mcpServers": {
    "fetch": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "mcp-server-fetch"
      ],
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

调试方式

启用调试日志可以跟踪评分决策过程

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。