
MCP Docling Server

2025.04.05
8
Python文档处理内容生成内容生成
MCP Docling Server 是一个提供文档处理能力的 MCP 服务器,使用 Docling 库实现。它支持多种文档处理功能,包括文档转换、表格提取、批量处理以及问答生成等。适用于需要自动化文档处理的场景,如内容生成、数据提取等。
View on GitHub
Overview
基本能力
产品定位
MCP Docling Server 是一个专注于文档处理的 MCP 服务器,提供多种文档转换和处理工具。
核心功能
- 文档转换:将文档从 URL 或本地路径转换为 Markdown 格式。
- 图像提取:在文档转换过程中提取嵌入的图像。
- 表格提取:从文档中提取表格作为结构化数据。
- 批量处理:支持批量处理多个文档。
- 问答生成:从文档生成问答对,输出为 YAML 格式。
- 系统信息获取:获取系统配置和加速状态信息。
适用场景
- 自动化文档处理流程。
- 内容生成和数据提取。
- 与 LLM 应用集成,提供文档处理能力。
工具列表
- convert_document:将文档转换为 Markdown 格式。
- convert_document_with_images:转换文档并提取嵌入图像。
- extract_tables:从文档中提取表格。
- convert_batch:批量处理多个文档。
- qna_from_document:从文档生成问答对。
- get_system_info:获取系统信息。
常见问题解答
- Q: 如何启用 OCR 功能?
A: 在工具调用时设置
enable_ocr
参数为true
。 - Q: 问答生成工具需要哪些凭证?
A: 需要设置 IBM Watson X 的环境变量:
WATSONX_PROJECT_ID
、WATSONX_APIKEY
和WATSONX_URL
。
使用教程
使用依赖
安装前需确保已安装 Python 和 pip。
安装教程
使用 pip 安装:
pip install -e .
调试方式
启动服务器:
# 使用 stdio 传输(默认)
mcp-server-lls
# 使用 SSE 传输并指定端口
mcp-server-lls --transport sse --port 8000
使用 uv 直接运行(无需安装):
# 使用 stdio 传输(默认)
uv run mcp-server-lls
# 使用 SSE 传输并指定端口
uv run mcp-server-lls --transport sse --port 8000