
mcp-server-webcrawl

2025.04.16
0
Python网络爬虫AI 辅助分析浏览器自动化开发效率
mcp-server-webcrawl 是一个基于 Model Context Protocol (MCP) 的服务器,旨在桥接网络爬虫和 AI 语言模型之间的鸿沟。它允许 AI 客户端在用户指导下或自主地过滤和分析网络内容。该服务器提供全文搜索接口,支持布尔搜索、按类型、HTTP 状态等资源过滤,并与多种网络爬虫兼容。
View on GitHub
Overview
基本能力
产品定位
mcp-server-webcrawl 是一个连接网络爬虫和 AI 语言模型的中间件服务器,专注于提供网络内容的搜索和分析能力。
核心功能
- 全文搜索支持:提供全文搜索接口,支持布尔搜索。
- 资源过滤:可按类型、HTTP 状态等条件过滤资源。
- 多爬虫兼容:支持 WARC、wget、InterroBot、Katana、SiteOne 等多种网络爬虫。
- 快速 MCP 配置:易于配置,可快速集成到 Claude Desktop 等 AI 客户端中。
- Claude Desktop 就绪:专为 Claude Desktop 设计,未来还将支持 ChatGPT。
适用场景
- AI 辅助网络内容分析:AI 客户端可以自主或根据用户指令过滤和分析网络内容。
- 网络爬虫数据整合:将不同爬虫获取的数据统一到一个搜索和分析平台中。
- 开发和研究:适用于需要处理和分析大量网络内容的开发者和研究人员。
工具列表
- WARC:支持 WARC 文件格式的网络爬虫数据。
- wget:支持使用 wget 工具爬取的网络数据。
- InterroBot:支持 InterroBot 爬取的网络数据。
- Katana:支持 Katana 爬取的网络数据。
- SiteOne:支持 SiteOne 爬取的网络数据。
常见问题解答
- 如何配置 MCP?:通过 Claude Desktop 的菜单导航到 File > Settings > Developer,点击 Edit Config 修改配置文件。
- 如何安装?:通过 pip 安装:
pip install mcp_server_webcrawl
。
使用教程
使用依赖
- Python:需要 Python 3.10 或更高版本。
- Claude Desktop:需要安装 Claude Desktop。
安装教程
pip install mcp_server_webcrawl
调试方式
- 确保 Python 和 Claude Desktop 已正确安装。
- 运行
mcp-server-webcrawl
命令,检查是否正常启动。 - 在 Claude Desktop 中配置 MCP 服务器,确保连接正常。
- 使用 AI 客户端测试搜索和分析功能。