
🚀 MCP Server for Document Processing

2025.03.18
5
Python文档处理AI 扩展开发效率
MCP-Server 是一个基于 Model Context Protocol (MCP) 标准的文档处理服务,旨在扩展大型语言模型的知识库,使其能够访问和处理外部文档资源。通过实现 MCP 标准,该服务器允许 AI 助手查询和检索自定义文档集合中的信息,从而克服大型语言模型的知识截止限制。
View on GitHub
Overview
基本能力
产品定位
MCP-Server 是一个文档处理服务,通过实现 Model Context Protocol (MCP) 标准,扩展 AI 助手的能力,使其能够访问和处理外部文档资源。
核心功能
- 文档处理管道:读取 Markdown 和文本文件,分块处理,生成嵌入向量,并存储在向量数据库中。
- MCP 服务器:通过 MCP 工具暴露处理后的内容,允许 AI 助手搜索和检索相关信息。
- 支持多种文件类型:包括 Markdown (.md)、文本 (.txt)、PDF (.pdf)、Word 文档 (.docx, .doc)。
- 多种嵌入模型支持:包括免费本地模型和付费 OpenAI 模型。
- 两种操作模式:全处理模式(使用 Claude 生成响应)和上下文检索模式(仅返回相关上下文)。
适用场景
- 更新 AI 知识库:使用最新的框架文档(如 React 19、Angular 17、Vue 3.4+ 等)。
- 私有代码库文档:帮助 AI 助手理解专有代码模式和结构。
- 技术规范:导入新 API、协议或工具的文档。
工具列表
- 📚 read_md_files:处理和检索文件。
- 🔍 search_content:跨处理内容搜索。
- 📋 get_context:检索上下文信息。
- 🏗️ project_structure:提供项目结构信息。
- 💡 suggest_implementation:生成实现建议。
常见问题解答
- Docker 未找到:确保 Docker 已安装并运行。
- "Invalid reference format" 错误:通常是因为未先构建服务器镜像。
- API 密钥问题:可以使用免费的本地嵌入模型。
- Chroma 数据库未找到:确保已运行管道处理文档。
- 连接问题:验证 MCP 配置中的路径是否正确。
使用教程
使用依赖
- Docker:安装 Docker Desktop 或 Docker Engine。
- OpenAI API 密钥(可选):可以使用免费本地嵌入模型。
- 支持 MCP 的 AI 助手:如 Roo 或其他兼容助手。
安装教程
- 克隆仓库:
bash git clone https://github.com/donphi/mcp-server.git cd mcp-server
- 创建
.env
文件:bash cp .env.example .env nano .env
- 将 Markdown 和文本文件放入
data/
目录。
调试方式
- 处理文件并生成嵌入:
bash docker-compose build pipeline docker-compose run pipeline
- 构建 MCP 服务器:
bash docker-compose build server
- 配置 AI 助手:
- macOS/Linux:
bash chmod +x setup-mcpServer-json.sh ./setup-mcpServer-json.sh
- Windows:
cmd setup-mcpServer-json.bat