Documentation Crawler & MCP Server

Documentation Crawler & MCP Server

site icon
2025.04.14 6
Python文档爬取文档搜索开发工具集成搜索工具开发效率
MCPDocSearch 是一个文档爬取和搜索工具集,旨在通过 Model Context Protocol (MCP) 服务器使文档内容可搜索,特别适用于与 Cursor 等工具的集成。其核心功能包括网站爬取、Markdown 文档生成、文档内容的分块和向量嵌入,以及通过 MCP 协议提供搜索服务。适用于需要快速访问和搜索大量文档内容的开发者和团队。
View on GitHub

Overview

基本能力

产品定位

MCPDocSearch 是一个专为开发者设计的文档爬取和搜索工具集,通过 MCP 服务器提供高效的文档搜索功能。

核心功能

  • Web Crawler (crawler_cli)
  • 从给定 URL 开始爬取网站内容。
  • 可配置爬取深度、URL 模式(包含/排除)、内容类型等。
  • 生成统一的 Markdown 文件并保存到 ./storage/ 目录。
  • MCP Server (mcp_server)
  • 加载并解析 ./storage/ 中的 Markdown 文件。
  • 将文档分块并生成向量嵌入。
  • 提供缓存机制以加速后续启动。
  • 通过 fastmcp 提供以下工具:
    • list_documents:列出可用的文档。
    • get_document_headings:获取文档的标题结构。
    • search_documentation:基于语义搜索文档内容。

适用场景

  • 需要快速访问和搜索大量文档的开发团队。
  • 需要将文档内容集成到开发工具(如 Cursor)中的场景。
  • 需要自动化爬取和整理网站文档的场景。

工具列表

  • crawler_cli:爬取网站并生成 Markdown 文档。
  • mcp_server:提供文档搜索服务的 MCP 服务器。

常见问题解答

  • 嵌入时间:首次启动或文档变更时,生成嵌入可能需要较长时间,具体取决于硬件和文档大小。
  • 缓存机制:服务器会缓存处理后的文档分块和嵌入,后续启动会更快。

使用教程

使用依赖

  1. 安装 uvbash curl -LsSf https://astral.sh/uv/install.sh | sh

安装教程

  1. 克隆仓库: bash git clone https://github.com/alizdavoodi/MCPDocSearch.git cd MCPDocSearch
  2. 安装依赖: bash uv sync

调试方式

  1. 运行爬虫: bash uv run python crawl.py https://docs.example.com
  2. 启动 MCP 服务器: bash python -m mcp_server.main
  3. 配置 Cursor:
  4. 创建 .cursor/mcp.json 文件并配置服务器路径。
  5. 重启 Cursor 以启用搜索服务。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。