Scrapling Fetch MCP

Scrapling Fetch MCP

site icon
2025.03.20 13
Python文本内容检索AI助手支持浏览器自动化开发效率
Scrapling Fetch MCP 是一个专为AI助手设计的MCP服务器,旨在帮助AI助手从实施了机器人检测的网站中获取文本内容。它填补了用户在浏览器中可以看到的内容与AI可以访问的内容之间的差距。该工具特别适用于低量级的文档和参考材料(仅限文本/HTML)的检索,并未设计或测试用于通用网站抓取或数据采集。
View on GitHub

Overview

基本能力

产品定位

Scrapling Fetch MCP 是一个专为AI助手设计的MCP服务器,旨在帮助AI助手从实施了机器人检测的网站中获取文本内容。

核心功能

  • s-fetch-page: 检索完整的网页,支持分页。
  • s-fetch-pattern: 提取与正则表达式模式匹配的内容及其周围上下文。

适用场景

  • 低量级的文档和参考材料(仅限文本/HTML)的检索。
  • 从实施了机器人检测的网站中获取特定信息。

工具列表

  1. s-fetch-page: 检索完整的网页,支持分页。
  2. s-fetch-pattern: 提取与正则表达式模式匹配的内容及其周围上下文。

常见问题解答

  • 设计用途: 仅适用于文本内容,如文档、文章和参考材料。
  • 不适用场景: 不适用于高量级的抓取或数据采集,可能不适用于需要认证的网站。

使用教程

使用依赖

  • Python 3.10+
  • uv 包管理器

安装教程

uv tool install scrapling
scrapling install
uv tool install scrapling-fetch-mcp

调试方式

  1. 使用 basic 模式进行快速检索(1-2秒)。
  2. 如果 basic 模式失败,尝试 stealth 模式(3-8秒)。
  3. 对于高度保护的网站,使用 max-stealth 模式(10+秒)。

功能选项

  • 保护级别: basic, stealth, max-stealth
  • 内容目标选项: 使用 s-fetch-pages-fetch-pattern 进行内容检索。

最佳实践建议

  • basic 模式开始,仅在需要时升级到更高的保护级别。
  • 对于大型文档,使用 s-fetch-page 的分页参数。
  • 在大型页面上查找特定信息时使用 s-fetch-pattern
  • AI会根据网站的保护级别自动调整其方法。

许可证

该项目遵循 Apache-2.0 开源许可条款,请参阅 Apache-2.0 了解完整条款。