OpenAI OCR MCP Server

OpenAI OCR MCP Server

site icon
2025.04.21 0
JavaScriptOCR 服务文本提取开发工具内容生成开发效率
OpenAI OCR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,利用 OpenAI 的视觉能力提供光学字符识别(OCR)功能。该服务与 Cursor IDE 集成,能够从图像中无缝提取文本,并自动保存为文本文件。
View on GitHub

Overview

基本能力

产品定位

OpenAI OCR MCP Server 是一个专注于图像文本提取的服务,主要用于开发环境中快速从图像中提取文本内容,提升开发效率。

核心功能

  • 图像文本提取:使用 OpenAI 的 GPT-4.1-mini 视觉模型从多种图像格式中提取文本。
  • 自动文本文件创建:提取的文本会自动保存为文件,与源图像放在同一目录下。
  • 基于内容的文件命名:使用内容哈希生成唯一的文件名,便于文件管理。
  • 多格式支持:支持 JPG、PNG、GIF 和 WebP 格式的图像。
  • 错误处理与日志:提供详细的错误处理和日志记录功能,便于调试。

适用场景

  • 开发者在 Cursor IDE 中快速从图像中提取文本。
  • 需要自动化处理大量图像文本的场景。
  • 对图像文本提取的准确性和效率有较高要求的场景。

工具列表

  • OCR 工具:通过 Cursor IDE 的命令面板调用,用于选择并处理图像文件。
  • 文本文件生成工具:自动生成与图像内容对应的文本文件。

常见问题解答

  • 文件大小限制:最大支持 5MB 的图像文件,超过此大小的文件会被拒绝。
  • API 密钥问题:需要正确设置 OpenAI API 密钥,否则服务无法运行。
  • 图像格式问题:仅支持 JPG、PNG、GIF 和 WebP 格式的图像。

使用教程

使用依赖

  1. 确保已安装 Node.js 和 npm。
  2. 克隆项目仓库。

安装教程

  1. 安装依赖: bash npm install
  2. 构建 TypeScript 代码: bash npm run build
  3. .env 文件中设置 OpenAI API 密钥: OPENAI_API_KEY=your_api_key_here

调试方式

  1. 运行测试: bash npm test
  2. 查看日志:服务会记录详细的处理步骤和错误信息,便于调试。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。