PDF Reader MCP Server

PDF Reader MCP Server

2025.02.20 9

PythonPDF处理文本提取内容生成

PDF Reader MCP Server 是一个基于模型上下文协议（MCP）的服务，专门用于从PDF文件中读取和提取文本内容，支持本地文件和URL。该服务提供了强大的PDF处理能力，包括自动检测PDF编码、错误处理以及标准化的JSON输出格式。

View on GitHub

Overview

基本能力

产品定位

PDF Reader MCP Server 是一个专注于PDF文本提取的服务，适用于需要从PDF文档中提取文本内容的场景。

核心功能

从本地PDF文件读取文本内容
从PDF URL读取文本内容
对损坏或无效PDF文件的错误处理
支持本地PDF文件的卷挂载
自动检测PDF编码
标准化的JSON输出格式

适用场景

文档处理自动化
数据提取和分析
内容管理系统集成
学术研究和文献分析

工具列表

read_local_pdf
能力：从本地PDF文件读取文本内容
输入：JSON格式的路径信息
输出：包含提取文本的JSON格式数据
read_pdf_url
能力：从PDF URL读取文本内容
输入：JSON格式的URL信息
输出：包含提取文本的JSON格式数据

常见问题解答

如何处理损坏的PDF文件？服务会返回详细的错误信息。
如何访问本地PDF文件？通过卷挂载方式将本地目录映射到容器内。
网络连接问题如何处理？服务会检测并返回网络相关的错误信息。

使用教程

使用依赖

Python 3.11+
PyPDF2
requests
MCP SDK

安装教程

克隆仓库：

git clone https://github.com/trafflux/pdf-reader-mcp.git
cd pdf-reader-mcp

构建Docker镜像：

docker build -t mcp/pdf-reader .

调试方式

运行服务器（带本地PDF访问）：

docker run -i --rm -v /path/to/pdfs:/pdfs mcp/pdf-reader

运行服务器（不带本地PDF访问）：

docker run -i --rm mcp/pdf-reader

许可证

该项目遵循 Apache License 2.0 开源许可条款。