
MCP-PDF2MD

2025.03.25
4
Python文档转换内容生成内容生成
MCP-PDF2MD 是一个基于 MCP 的高性能 PDF 转 Markdown 转换服务,由 MinerU API 提供支持。它支持本地文件和 URL 链接的批量处理,并能输出结构化的 Markdown 格式。该服务适用于需要将 PDF 文档转换为易于编辑和处理的 Markdown 格式的场景,如文档管理、内容生成等。
View on GitHub
Overview
基本能力
产品定位
MCP-PDF2MD 是一个高性能的 PDF 转 Markdown 转换服务,旨在提供结构化的文档转换能力,适用于需要高效处理大量 PDF 文件的场景。
核心功能
- 格式转换:将 PDF 文件转换为结构化的 Markdown 格式。
- 多源支持:支持本地 PDF 文件和 URL 链接的处理。
- 智能处理:自动选择最佳处理方法。
- 批量处理:支持多文件批量转换,高效处理大量 PDF 文件。
- MCP 集成:与 LLM 客户端(如 Claude Desktop)无缝集成。
- 结构保留:保留原始文档结构,包括标题、段落、列表等。
- 智能布局:输出人类可读顺序的文本,适用于单列、多列和复杂布局。
- 公式转换:自动识别并将文档中的公式转换为 LaTeX 格式。
- 表格提取:自动识别并将文档中的表格转换为结构化格式。
- 清理优化:移除页眉、页脚、脚注、页码等,确保语义连贯。
- 高质量提取:高质量提取 PDF 文档中的文本、图像和布局信息。
适用场景
- 文档管理:将 PDF 文档转换为易于编辑的 Markdown 格式。
- 内容生成:将 PDF 内容转换为结构化格式,便于后续处理和分析。
- 批量处理:高效处理大量 PDF 文件,适用于企业级应用。
工具列表
- convert_pdf_url:将 PDF URL 转换为 Markdown。
- convert_pdf_file:将本地 PDF 文件转换为 Markdown。
常见问题解答
- 如何获取 MinerU API 密钥?
- 访问 MinerU 官方网站 并注册账户。
- 登录后,在 此链接 申请 API 测试资格。
- 申请通过后,访问 API 管理 页面生成 API 密钥。
- 将生成的 API 密钥用于
MINERU_API_KEY
环境变量。
使用教程
使用依赖
- 软件:Python 3.10+
安装教程
-
克隆仓库并进入目录:
bash git clone https://github.com/FutureUnreal/mcp-pdf2md.git cd mcp-pdf2md
-
创建虚拟环境并安装依赖: Linux/macOS:
bash uv venv source .venv/bin/activate uv pip install -e .
Windows:bash uv venv .venv\Scripts\activate uv pip install -e .
-
配置环境变量: 在项目根目录创建
.env
文件,设置以下环境变量:MINERU_API_BASE=https://mineru.net/api/v4/extract/task MINERU_BATCH_API=https://mineru.net/api/v4/extract/task/batch MINERU_BATCH_RESULTS_API=https://mineru.net/api/v4/extract-results/batch MINERU_API_KEY=your_api_key_here
-
启动服务:
bash uv run pdf2md
调试方式
- 确保
.env
文件中的 API 密钥正确配置。 - 检查虚拟环境是否激活。
- 运行服务后,检查日志输出以确认服务正常运行。