
PDF Reader MCP Server

2025.02.20
9
PythonPDF处理文本提取内容生成
PDF Reader MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从PDF文件中读取和提取文本内容,支持本地文件和URL。该服务提供了强大的PDF处理能力,包括自动检测PDF编码、错误处理以及标准化的JSON输出格式。
View on GitHub
Overview
基本能力
产品定位
PDF Reader MCP Server 是一个专注于PDF文本提取的服务,适用于需要从PDF文档中提取文本内容的场景。
核心功能
- 从本地PDF文件读取文本内容
- 从PDF URL读取文本内容
- 对损坏或无效PDF文件的错误处理
- 支持本地PDF文件的卷挂载
- 自动检测PDF编码
- 标准化的JSON输出格式
适用场景
- 文档处理自动化
- 数据提取和分析
- 内容管理系统集成
- 学术研究和文献分析
工具列表
read_local_pdf
- 能力:从本地PDF文件读取文本内容
- 输入:JSON格式的路径信息
-
输出:包含提取文本的JSON格式数据
-
read_pdf_url
- 能力:从PDF URL读取文本内容
- 输入:JSON格式的URL信息
- 输出:包含提取文本的JSON格式数据
常见问题解答
- 如何处理损坏的PDF文件?服务会返回详细的错误信息。
- 如何访问本地PDF文件?通过卷挂载方式将本地目录映射到容器内。
- 网络连接问题如何处理?服务会检测并返回网络相关的错误信息。
使用教程
使用依赖
- Python 3.11+
- PyPDF2
- requests
- MCP SDK
安装教程
- 克隆仓库:
git clone https://github.com/trafflux/pdf-reader-mcp.git
cd pdf-reader-mcp
- 构建Docker镜像:
docker build -t mcp/pdf-reader .
调试方式
运行服务器(带本地PDF访问):
docker run -i --rm -v /path/to/pdfs:/pdfs mcp/pdf-reader
运行服务器(不带本地PDF访问):
docker run -i --rm mcp/pdf-reader