
Docling MCP Server

2025.03.03
0
Python文档转换AI 内容处理OCR 支持内容生成开发效率
Docling MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,主要用于将各种格式的文档转换为 Markdown 格式。该服务利用 Docling 库,使得 Claude 和其他 AI 助手能够处理和提取多种文档格式的内容。
核心功能包括文档转换(支持 URL 和本地文件)、表格提取、带图片文档的转换、OCR 支持、批量处理以及性能优化(如缓存和硬件加速)。
适用场景包括 AI 助手的内容处理、文档批量转换、表格数据提取以及需要 OCR 功能的文档处理任务。
View on GitHub
Overview
基本能力
产品定位
Docling MCP Server 是一个文档处理服务,专注于将各种格式的文档转换为 Markdown 格式,并支持 AI 助手进行内容处理和提取。
核心功能
- 将 URL 或本地文件中的文档转换为 Markdown
- 从文档中提取表格
- 转换带有嵌入图片的文档
- 支持 OCR(光学字符识别)
- 批量处理多个文档
- 缓存转换结果以提高性能
- 支持硬件加速(macOS 上的 MPS)
适用场景
- AI 助手的内容处理和提取
- 文档批量转换任务
- 表格数据提取
- 需要 OCR 功能的文档处理
工具列表
- convert_document: 将文档从 URL 或本地路径转换为 Markdown 格式。
- convert_document_with_images: 转换文档并返回 Markdown 文本和嵌入图片。
- extract_tables: 从文档中提取表格并返回结构化数据。
- convert_batch: 批量转换多个文档。
- get_system_info: 返回系统配置和加速状态信息。
常见问题解答
- 日志检查: 查看日志以获取错误信息。
- 依赖验证: 确保 Python 环境安装了所有必需的依赖项。
- 路径设置: 确保配置中正确设置了 PYTHONPATH。
- 硬件加速问题: 检查系统是否支持配置的加速器。
使用教程
使用依赖
- Python 3.10 或更高版本
- Docling 库
- MCP 库
安装教程
- 克隆仓库:
bash git clone https://github.com/yourusername/mcp-docling.git cd mcp-docling
- 创建虚拟环境:
bash python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate
- 安装包:
bash pip install -e .
调试方式
- 开发模式运行服务器:
bash mcp dev mcp_docling/server.py
- 模块模式运行服务器:
bash python -m mcp_docling
- 测试脚本:
bash python test_docling_server.py
设置环境变量:bash export INFERENCE_MODEL="your-model-id" export LLAMA_STACK_PORT="8080"
许可证
None