
mcp-server-webcrawl

2025.05.09
0
Python网络爬虫AI集成数据分析浏览器自动化开发效率
mcp-server-webcrawl 是一个基于 Model Context Protocol (MCP) 的服务器,旨在桥接网络爬虫和 AI 语言模型之间的鸿沟。它允许 AI 客户端在用户指导下或自主地过滤和分析网络内容。该服务器提供全文搜索接口,支持布尔搜索、按类型、HTTP 状态等资源过滤,并与多种网络爬虫兼容。
View on GitHub
Overview
基本能力
产品定位
mcp-server-webcrawl 是一个连接网络爬虫和 AI 语言模型的桥梁工具,专注于提供网络内容的搜索和分析能力。
核心功能
- Claude Desktop 支持:与 Claude Desktop 无缝集成
- 全文搜索:支持布尔搜索等多种搜索方式
- 资源过滤:可按类型、HTTP 状态等条件过滤内容
- 多爬虫兼容:支持 WARC、wget、InterroBot、Katana 和 SiteOne 等多种爬虫
- 快速 MCP 配置:易于设置和配置
- 即将支持 ChatGPT:未来版本将增加对 ChatGPT 的支持
适用场景
- AI 辅助的网络内容分析
- 大规模网络爬取数据的检索和管理
- 开发和研究中的网络数据挖掘
- 自动化测试和监控中的网页内容分析
工具列表
- WARC:网络存档文件格式支持
- wget:经典网络下载工具集成
- InterroBot:专业爬虫工具支持
- Katana:ProjectDiscovery 的网络爬虫
- SiteOne:商业爬虫解决方案
常见问题解答
- macOS 配置问题:必须使用绝对路径配置可执行文件
- 不同爬虫的数据源路径:需要根据爬虫类型正确设置数据源路径
使用教程
使用依赖
- Python (>=3.10)
- Claude Desktop
安装教程
pip install mcp-server-webcrawl
调试方式
- 在 Claude Desktop 中配置 MCP 服务器
- 根据使用的爬虫类型设置正确的数据源路径
- 测试搜索功能确保服务器正常运行
MCP 配置示例
{
"mcpServers": {
"webcrawl": {
"command": "mcp-server-webcrawl",
"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]
}
}
}
macOS 特殊配置
"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",
查找可执行文件绝对路径:
which mcp-server-webcrawl