PDF Reader MCP Server

PDF Reader MCP Server

site icon
2025.02.20 9
PythonPDF处理文本提取内容生成
PDF Reader MCP Server 是一个基于模型上下文协议(MCP)的服务,专门用于从PDF文件中读取和提取文本内容,支持本地文件和URL。该服务提供了强大的PDF处理能力,包括自动检测PDF编码、错误处理以及标准化的JSON输出格式。
View on GitHub

Overview

基本能力

产品定位

PDF Reader MCP Server 是一个专注于PDF文本提取的服务,适用于需要从PDF文档中提取文本内容的场景。

核心功能

  • 从本地PDF文件读取文本内容
  • 从PDF URL读取文本内容
  • 对损坏或无效PDF文件的错误处理
  • 支持本地PDF文件的卷挂载
  • 自动检测PDF编码
  • 标准化的JSON输出格式

适用场景

  • 文档处理自动化
  • 数据提取和分析
  • 内容管理系统集成
  • 学术研究和文献分析

工具列表

  1. read_local_pdf
  2. 能力:从本地PDF文件读取文本内容
  3. 输入:JSON格式的路径信息
  4. 输出:包含提取文本的JSON格式数据

  5. read_pdf_url

  6. 能力:从PDF URL读取文本内容
  7. 输入:JSON格式的URL信息
  8. 输出:包含提取文本的JSON格式数据

常见问题解答

  • 如何处理损坏的PDF文件?服务会返回详细的错误信息。
  • 如何访问本地PDF文件?通过卷挂载方式将本地目录映射到容器内。
  • 网络连接问题如何处理?服务会检测并返回网络相关的错误信息。

使用教程

使用依赖

  • Python 3.11+
  • PyPDF2
  • requests
  • MCP SDK

安装教程

  1. 克隆仓库:
git clone https://github.com/trafflux/pdf-reader-mcp.git
cd pdf-reader-mcp
  1. 构建Docker镜像:
docker build -t mcp/pdf-reader .

调试方式

运行服务器(带本地PDF访问):

docker run -i --rm -v /path/to/pdfs:/pdfs mcp/pdf-reader

运行服务器(不带本地PDF访问):

docker run -i --rm mcp/pdf-reader

许可证

该项目遵循 Apache License 2.0 开源许可条款。