mcp-server-webcrawl

mcp-server-webcrawl

site icon
2025.05.09 0
Python网络爬虫AI集成数据分析浏览器自动化开发效率
mcp-server-webcrawl 是一个基于 Model Context Protocol (MCP) 的服务器,旨在桥接网络爬虫和 AI 语言模型之间的鸿沟。它允许 AI 客户端在用户指导下或自主地过滤和分析网络内容。该服务器提供全文搜索接口,支持布尔搜索、按类型、HTTP 状态等资源过滤,并与多种网络爬虫兼容。
View on GitHub

Overview

基本能力

产品定位

mcp-server-webcrawl 是一个连接网络爬虫和 AI 语言模型的桥梁工具,专注于提供网络内容的搜索和分析能力。

核心功能

  • Claude Desktop 支持:与 Claude Desktop 无缝集成
  • 全文搜索:支持布尔搜索等多种搜索方式
  • 资源过滤:可按类型、HTTP 状态等条件过滤内容
  • 多爬虫兼容:支持 WARC、wget、InterroBot、Katana 和 SiteOne 等多种爬虫
  • 快速 MCP 配置:易于设置和配置
  • 即将支持 ChatGPT:未来版本将增加对 ChatGPT 的支持

适用场景

  1. AI 辅助的网络内容分析
  2. 大规模网络爬取数据的检索和管理
  3. 开发和研究中的网络数据挖掘
  4. 自动化测试和监控中的网页内容分析

工具列表

  1. WARC:网络存档文件格式支持
  2. wget:经典网络下载工具集成
  3. InterroBot:专业爬虫工具支持
  4. Katana:ProjectDiscovery 的网络爬虫
  5. SiteOne:商业爬虫解决方案

常见问题解答

  • macOS 配置问题:必须使用绝对路径配置可执行文件
  • 不同爬虫的数据源路径:需要根据爬虫类型正确设置数据源路径

使用教程

使用依赖

  • Python (>=3.10)
  • Claude Desktop

安装教程

pip install mcp-server-webcrawl

调试方式

  1. 在 Claude Desktop 中配置 MCP 服务器
  2. 根据使用的爬虫类型设置正确的数据源路径
  3. 测试搜索功能确保服务器正常运行

MCP 配置示例

{ 
  "mcpServers": {
    "webcrawl": {
      "command": "mcp-server-webcrawl",
       "args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]
    }
  }
}

macOS 特殊配置

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

查找可执行文件绝对路径:

which mcp-server-webcrawl

许可证

该项目遵循 Other 开源许可条款,请参阅 Other 了解完整条款。