mcp-server-webcrawl

mcp-server-webcrawl

site icon
2025.04.16 0
Python网络爬虫AI 辅助分析浏览器自动化开发效率
mcp-server-webcrawl 是一个基于 Model Context Protocol (MCP) 的服务器,旨在桥接网络爬虫和 AI 语言模型之间的鸿沟。它允许 AI 客户端在用户指导下或自主地过滤和分析网络内容。该服务器提供全文搜索接口,支持布尔搜索、按类型、HTTP 状态等资源过滤,并与多种网络爬虫兼容。
View on GitHub

Overview

基本能力

产品定位

mcp-server-webcrawl 是一个连接网络爬虫和 AI 语言模型的中间件服务器,专注于提供网络内容的搜索和分析能力。

核心功能

  • 全文搜索支持:提供全文搜索接口,支持布尔搜索。
  • 资源过滤:可按类型、HTTP 状态等条件过滤资源。
  • 多爬虫兼容:支持 WARC、wget、InterroBot、Katana、SiteOne 等多种网络爬虫。
  • 快速 MCP 配置:易于配置,可快速集成到 Claude Desktop 等 AI 客户端中。
  • Claude Desktop 就绪:专为 Claude Desktop 设计,未来还将支持 ChatGPT。

适用场景

  • AI 辅助网络内容分析:AI 客户端可以自主或根据用户指令过滤和分析网络内容。
  • 网络爬虫数据整合:将不同爬虫获取的数据统一到一个搜索和分析平台中。
  • 开发和研究:适用于需要处理和分析大量网络内容的开发者和研究人员。

工具列表

  • WARC:支持 WARC 文件格式的网络爬虫数据。
  • wget:支持使用 wget 工具爬取的网络数据。
  • InterroBot:支持 InterroBot 爬取的网络数据。
  • Katana:支持 Katana 爬取的网络数据。
  • SiteOne:支持 SiteOne 爬取的网络数据。

常见问题解答

  • 如何配置 MCP?:通过 Claude Desktop 的菜单导航到 File > Settings > Developer,点击 Edit Config 修改配置文件。
  • 如何安装?:通过 pip 安装:pip install mcp_server_webcrawl

使用教程

使用依赖

  • Python:需要 Python 3.10 或更高版本。
  • Claude Desktop:需要安装 Claude Desktop。

安装教程

pip install mcp_server_webcrawl

调试方式

  1. 确保 Python 和 Claude Desktop 已正确安装。
  2. 运行 mcp-server-webcrawl 命令,检查是否正常启动。
  3. 在 Claude Desktop 中配置 MCP 服务器,确保连接正常。
  4. 使用 AI 客户端测试搜索和分析功能。

许可证

该项目遵循 Other 开源许可条款,请参阅 Other 了解完整条款。