mcp-server-webcrawl

mcp-server-webcrawl

2025.05.09 0

Python网络爬虫AI集成数据分析浏览器自动化开发效率

mcp-server-webcrawl 是一个基于 Model Context Protocol (MCP) 的服务器，旨在桥接网络爬虫和 AI 语言模型之间的鸿沟。它允许 AI 客户端在用户指导下或自主地过滤和分析网络内容。该服务器提供全文搜索接口，支持布尔搜索、按类型、HTTP 状态等资源过滤，并与多种网络爬虫兼容。

View on GitHub

Overview

基本能力

产品定位

mcp-server-webcrawl 是一个连接网络爬虫和 AI 语言模型的桥梁工具，专注于提供网络内容的搜索和分析能力。

核心功能

Claude Desktop 支持：与 Claude Desktop 无缝集成
全文搜索：支持布尔搜索等多种搜索方式
资源过滤：可按类型、HTTP 状态等条件过滤内容
多爬虫兼容：支持 WARC、wget、InterroBot、Katana 和 SiteOne 等多种爬虫
快速 MCP 配置：易于设置和配置
即将支持 ChatGPT：未来版本将增加对 ChatGPT 的支持

适用场景

AI 辅助的网络内容分析
大规模网络爬取数据的检索和管理
开发和研究中的网络数据挖掘
自动化测试和监控中的网页内容分析

工具列表

WARC：网络存档文件格式支持
wget：经典网络下载工具集成
InterroBot：专业爬虫工具支持
Katana：ProjectDiscovery 的网络爬虫
SiteOne：商业爬虫解决方案

常见问题解答

macOS 配置问题：必须使用绝对路径配置可执行文件
不同爬虫的数据源路径：需要根据爬虫类型正确设置数据源路径

使用教程

使用依赖

Python (>=3.10)
Claude Desktop

安装教程

pip install mcp-server-webcrawl

调试方式

在 Claude Desktop 中配置 MCP 服务器
根据使用的爬虫类型设置正确的数据源路径
测试搜索功能确保服务器正常运行

MCP 配置示例

{ 
  "mcpServers": {
    "webcrawl": {
      "command": "mcp-server-webcrawl",
       "args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]
    }
  }
}

macOS 特殊配置

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

查找可执行文件绝对路径:

which mcp-server-webcrawl

许可证

该项目遵循 Other 开源许可条款，请参阅 Other 了解完整条款。