OpenAI OCR MCP Server

OpenAI OCR MCP Server

2025.04.21 0

JavaScriptOCR 服务文本提取开发工具内容生成开发效率

OpenAI OCR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务，利用 OpenAI 的视觉能力提供光学字符识别（OCR）功能。该服务与 Cursor IDE 集成，能够从图像中无缝提取文本，并自动保存为文本文件。

View on GitHub

Overview

基本能力

产品定位

OpenAI OCR MCP Server 是一个专注于图像文本提取的服务，主要用于开发环境中快速从图像中提取文本内容，提升开发效率。

核心功能

图像文本提取：使用 OpenAI 的 GPT-4.1-mini 视觉模型从多种图像格式中提取文本。
自动文本文件创建：提取的文本会自动保存为文件，与源图像放在同一目录下。
基于内容的文件命名：使用内容哈希生成唯一的文件名，便于文件管理。
多格式支持：支持 JPG、PNG、GIF 和 WebP 格式的图像。
错误处理与日志：提供详细的错误处理和日志记录功能，便于调试。

适用场景

开发者在 Cursor IDE 中快速从图像中提取文本。
需要自动化处理大量图像文本的场景。
对图像文本提取的准确性和效率有较高要求的场景。

工具列表

OCR 工具：通过 Cursor IDE 的命令面板调用，用于选择并处理图像文件。
文本文件生成工具：自动生成与图像内容对应的文本文件。

常见问题解答

文件大小限制：最大支持 5MB 的图像文件，超过此大小的文件会被拒绝。
API 密钥问题：需要正确设置 OpenAI API 密钥，否则服务无法运行。
图像格式问题：仅支持 JPG、PNG、GIF 和 WebP 格式的图像。

使用教程

使用依赖

确保已安装 Node.js 和 npm。
克隆项目仓库。

安装教程

安装依赖： bash npm install
构建 TypeScript 代码： bash npm run build
在 .env 文件中设置 OpenAI API 密钥： OPENAI_API_KEY=your_api_key_here

调试方式

运行测试： bash npm test
查看日志：服务会记录详细的处理步骤和错误信息，便于调试。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。