Fetcher MCP

Fetcher MCP

2025.04.10 589

TypeScript网页抓取动态内容处理智能提取浏览器自动化开发效率

Fetcher MCP 是一个基于 Playwright 无头浏览器的 MCP 服务器，专门用于抓取网页内容。它支持 JavaScript 执行，能够处理动态网页内容，并内置智能内容提取算法，自动去除广告和导航等非必要元素。支持 HTML 和 Markdown 输出格式，具备并行处理能力，可优化资源使用并具有强大的错误处理机制。

View on GitHub

Overview

基本能力

产品定位

Fetcher MCP 是一个高效的网页内容抓取工具，特别适合需要处理动态内容和现代网页应用的场景。

核心功能

JavaScript 支持：使用 Playwright 执行 JavaScript，处理动态内容。
智能内容提取：内置 Readability 算法，自动提取网页主要内容。
灵活的输出格式：支持 HTML 和 Markdown 输出。
并行处理：支持批量抓取多个 URL。
资源优化：自动屏蔽不必要的资源（如图片、样式表等）。
错误处理：全面的错误处理和日志记录。
可配置参数：支持超时、内容提取和输出格式的细粒度控制。

适用场景

批量抓取动态网页内容。
需要去除广告和导航等非必要元素的网页内容提取。
需要将网页内容转换为 Markdown 或 HTML 格式的应用。

工具列表

fetch_url：从指定 URL 抓取网页内容。
支持智能提取主内容并转换为 Markdown。
支持多种参数配置，如超时、内容提取等。
fetch_urls：批量并行抓取多个 URL 的内容。
使用多标签并行抓取提高性能。
返回结果清晰分隔各网页内容。

常见问题解答

处理反爬机制：可通过增加超时或等待完整加载来应对。
调试模式：使用 --debug 参数启动调试模式，显示浏览器窗口。
认证：在调试模式下可手动登录网站进行认证。

使用教程

使用依赖

安装 Playwright 浏览器：

npx playwright install chromium

安装教程

直接运行：

npx -y fetcher-mcp

调试方式

启用调试模式：

npx -y fetcher-mcp --debug

开发相关

安装依赖：

npm install

安装 Playwright 浏览器：

npm run install-browser

构建服务器：

npm run build

调试：

npm run inspector

或

node build/index.js --debug

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。