PDF Reader MCP Server (@sylphlab/pdf-reader-mcp)

PDF Reader MCP Server (@sylphlab/pdf-reader-mcp)

site icon
2025.04.14 4
TypeScriptPDF解析文本提取元数据读取内容生成
PDF Reader MCP Server 是一个专为AI代理(如Cline)设计的工具,用于安全地读取和提取PDF文件中的信息(如文本、元数据、页数)。它提供了灵活的安装方式(npm或Docker),并支持在项目上下文中进行安全的文件访问。
View on GitHub

Overview

基本能力

产品定位

PDF Reader MCP Server 旨在为AI代理提供PDF文件的读取和解析能力,支持文本提取、元数据读取和页数统计等功能。

核心功能

  • 从PDF文件中读取全文内容。
  • 从特定页面或页面范围读取文本内容。
  • 读取PDF元数据(作者、标题、创建日期等)。
  • 获取PDF的总页数。
  • 在单个请求中处理多个PDF源(本地路径或URL)。
  • 在定义的项目根目录内安全操作。
  • 通过MCP提供结构化的JSON输出。

适用场景

  • AI代理需要从PDF文件中提取信息。
  • 项目需要集成PDF解析功能。
  • 需要安全地访问和解析PDF文件。

工具列表

  • read_pdf: 用于读取PDF文件的文本、元数据和页数。

常见问题解答

  • 如何安装?可以通过npm或Docker安装。
  • 如何配置?需要在MCP主机配置文件中指定命令和参数。
  • 如何调试?可以通过MCP请求测试功能是否正常。

使用教程

使用依赖

  • 确保已安装Node.js或Docker。

安装教程

使用npm安装

pnpm add @sylphlab/pdf-reader-mcp

使用Docker安装

docker pull sylphlab/pdf-reader-mcp:latest

本地构建

git clone https://github.com/sylphlab/pdf-reader-mcp.git
cd pdf-reader-mcp && pnpm install
pnpm run build

调试方式

配置MCP主机后,发送MCP请求测试功能:

{
  "tool_name": "read_pdf",
  "arguments": {
    "sources": [
      {
        "path": "./documents/my_report.pdf",
        "pages": [2]
      }
    ],
    "include_metadata": true,
    "include_page_count": false,
    "include_full_text": false
  }
}

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。