MCP Docling Server

MCP Docling Server

site icon
2025.04.05 8
Python文档处理内容生成内容生成
MCP Docling Server 是一个提供文档处理能力的 MCP 服务器,使用 Docling 库实现。它支持多种文档处理功能,包括文档转换、表格提取、批量处理以及问答生成等。适用于需要自动化文档处理的场景,如内容生成、数据提取等。
View on GitHub

Overview

基本能力

产品定位

MCP Docling Server 是一个专注于文档处理的 MCP 服务器,提供多种文档转换和处理工具。

核心功能

  1. 文档转换:将文档从 URL 或本地路径转换为 Markdown 格式。
  2. 图像提取:在文档转换过程中提取嵌入的图像。
  3. 表格提取:从文档中提取表格作为结构化数据。
  4. 批量处理:支持批量处理多个文档。
  5. 问答生成:从文档生成问答对,输出为 YAML 格式。
  6. 系统信息获取:获取系统配置和加速状态信息。

适用场景

  1. 自动化文档处理流程。
  2. 内容生成和数据提取。
  3. 与 LLM 应用集成,提供文档处理能力。

工具列表

  1. convert_document:将文档转换为 Markdown 格式。
  2. convert_document_with_images:转换文档并提取嵌入图像。
  3. extract_tables:从文档中提取表格。
  4. convert_batch:批量处理多个文档。
  5. qna_from_document:从文档生成问答对。
  6. get_system_info:获取系统信息。

常见问题解答

  1. Q: 如何启用 OCR 功能? A: 在工具调用时设置 enable_ocr 参数为 true
  2. Q: 问答生成工具需要哪些凭证? A: 需要设置 IBM Watson X 的环境变量:WATSONX_PROJECT_IDWATSONX_APIKEYWATSONX_URL

使用教程

使用依赖

安装前需确保已安装 Python 和 pip。

安装教程

使用 pip 安装:

pip install -e .

调试方式

启动服务器:

# 使用 stdio 传输(默认)
mcp-server-lls

# 使用 SSE 传输并指定端口
mcp-server-lls --transport sse --port 8000

使用 uv 直接运行(无需安装):

# 使用 stdio 传输(默认)
uv run mcp-server-lls

# 使用 SSE 传输并指定端口
uv run mcp-server-lls --transport sse --port 8000

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。