Fetcher MCP

Fetcher MCP

site icon
2025.04.10 589
TypeScript网页抓取动态内容处理智能提取浏览器自动化开发效率
Fetcher MCP 是一个基于 Playwright 无头浏览器的 MCP 服务器,专门用于抓取网页内容。它支持 JavaScript 执行,能够处理动态网页内容,并内置智能内容提取算法,自动去除广告和导航等非必要元素。支持 HTML 和 Markdown 输出格式,具备并行处理能力,可优化资源使用并具有强大的错误处理机制。
View on GitHub

Overview

基本能力

产品定位

Fetcher MCP 是一个高效的网页内容抓取工具,特别适合需要处理动态内容和现代网页应用的场景。

核心功能

  • JavaScript 支持:使用 Playwright 执行 JavaScript,处理动态内容。
  • 智能内容提取:内置 Readability 算法,自动提取网页主要内容。
  • 灵活的输出格式:支持 HTML 和 Markdown 输出。
  • 并行处理:支持批量抓取多个 URL。
  • 资源优化:自动屏蔽不必要的资源(如图片、样式表等)。
  • 错误处理:全面的错误处理和日志记录。
  • 可配置参数:支持超时、内容提取和输出格式的细粒度控制。

适用场景

  • 批量抓取动态网页内容。
  • 需要去除广告和导航等非必要元素的网页内容提取。
  • 需要将网页内容转换为 Markdown 或 HTML 格式的应用。

工具列表

  • fetch_url:从指定 URL 抓取网页内容。
  • 支持智能提取主内容并转换为 Markdown。
  • 支持多种参数配置,如超时、内容提取等。
  • fetch_urls:批量并行抓取多个 URL 的内容。
  • 使用多标签并行抓取提高性能。
  • 返回结果清晰分隔各网页内容。

常见问题解答

  • 处理反爬机制:可通过增加超时或等待完整加载来应对。
  • 调试模式:使用 --debug 参数启动调试模式,显示浏览器窗口。
  • 认证:在调试模式下可手动登录网站进行认证。

使用教程

使用依赖

安装 Playwright 浏览器:

npx playwright install chromium

安装教程

直接运行:

npx -y fetcher-mcp

调试方式

启用调试模式:

npx -y fetcher-mcp --debug

开发相关

安装依赖:

npm install

安装 Playwright 浏览器:

npm run install-browser

构建服务器:

npm run build

调试:

npm run inspector

node build/index.js --debug

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。