
Fetch MCP Server

2025.03.24
3
Python网页内容抓取浏览器自动化OCR处理文档解析浏览器自动化内容生成
mcp-server-fetch 是一个基于 Model Context Protocol 的服务,提供网页内容抓取能力,支持浏览器自动化、OCR 和多方法内容提取。该服务使 LLMs 能够从网页中检索和处理内容,包括需要 JavaScript 渲染或使用防爬技术的网页。
View on GitHub
Overview
基本能力
产品定位
mcp-server-fetch 是一个专注于网页内容抓取和处理的工具,特别适用于需要处理复杂网页内容的场景。
核心功能
- 使用浏览器自动化(undetected-chromedriver)抓取网页内容
- 使用 OCR(pytesseract)进行文本识别和布局检测
- 支持多种内容提取方法(HTML 提取、文档解析等)
- 智能评分系统自动选择最佳结果
- 支持自定义用户代理
- 自动处理 cookie 同意横幅
- 全页面截图捕获
适用场景
- 需要从复杂网页中提取内容的场景
- 处理需要 JavaScript 渲染的网页
- 绕过防爬技术的网页内容获取
- 文档解析(PDF, DOCX, PPTX)
- 高质量内容提取和转换
工具列表
fetch
: 抓取 URL 并将其内容提取为 markdown 格式- 参数:
url
(string, 必需): 要抓取的 URLraw
(boolean, 可选): 获取原始 HTML 内容(默认: false)
常见问题解答
- 如何自定义用户代理?
可以在配置中添加
--user-agent=YourUserAgent
参数 - 支持哪些文档格式? 支持 PDF, DOCX, PPTX 等文档格式
使用教程
使用依赖
需要安装 Docker 环境
安装教程
- 构建 Docker 镜像:
bash docker build -t mcp-server-fetch .
- 运行 Docker 容器:
bash docker run --rm -i mcp-server-fetch
配置
添加到 Claude 设置:
{
"mcpServers": {
"fetch": {
"command": "docker",
"args": [
"run",
"--rm",
"-i",
"mcp-server-fetch"
],
"disabled": false,
"alwaysAllow": []
}
}
}
调试方式
启用调试日志可以跟踪评分决策过程