Documentation Crawler & MCP Server

Documentation Crawler & MCP Server

2025.04.14 6

Python文档爬取文档搜索开发工具集成搜索工具开发效率

MCPDocSearch 是一个文档爬取和搜索工具集，旨在通过 Model Context Protocol (MCP) 服务器使文档内容可搜索，特别适用于与 Cursor 等工具的集成。其核心功能包括网站爬取、Markdown 文档生成、文档内容的分块和向量嵌入，以及通过 MCP 协议提供搜索服务。适用于需要快速访问和搜索大量文档内容的开发者和团队。

View on GitHub

Overview

基本能力

产品定位

MCPDocSearch 是一个专为开发者设计的文档爬取和搜索工具集，通过 MCP 服务器提供高效的文档搜索功能。

核心功能

Web Crawler (crawler_cli)：
从给定 URL 开始爬取网站内容。
可配置爬取深度、URL 模式（包含/排除）、内容类型等。
生成统一的 Markdown 文件并保存到 ./storage/ 目录。
MCP Server (mcp_server)：
加载并解析 ./storage/ 中的 Markdown 文件。
将文档分块并生成向量嵌入。
提供缓存机制以加速后续启动。
通过 fastmcp 提供以下工具：
- list_documents：列出可用的文档。
- get_document_headings：获取文档的标题结构。
- search_documentation：基于语义搜索文档内容。

适用场景

需要快速访问和搜索大量文档的开发团队。
需要将文档内容集成到开发工具（如 Cursor）中的场景。
需要自动化爬取和整理网站文档的场景。

工具列表

crawler_cli：爬取网站并生成 Markdown 文档。
mcp_server：提供文档搜索服务的 MCP 服务器。

常见问题解答

嵌入时间：首次启动或文档变更时，生成嵌入可能需要较长时间，具体取决于硬件和文档大小。
缓存机制：服务器会缓存处理后的文档分块和嵌入，后续启动会更快。

使用教程

使用依赖

安装 uv： bash curl -LsSf https://astral.sh/uv/install.sh | sh

安装教程

克隆仓库： bash git clone https://github.com/alizdavoodi/MCPDocSearch.git cd MCPDocSearch
安装依赖： bash uv sync

调试方式

运行爬虫： bash uv run python crawl.py https://docs.example.com
启动 MCP 服务器： bash python -m mcp_server.main
配置 Cursor：
创建 .cursor/mcp.json 文件并配置服务器路径。
重启 Cursor 以启用搜索服务。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。