
OpenAI OCR MCP Server

2025.04.21
0
JavaScriptOCR 服务文本提取开发工具内容生成开发效率
OpenAI OCR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,利用 OpenAI 的视觉能力提供光学字符识别(OCR)功能。该服务与 Cursor IDE 集成,能够从图像中无缝提取文本,并自动保存为文本文件。
View on GitHub
Overview
基本能力
产品定位
OpenAI OCR MCP Server 是一个专注于图像文本提取的服务,主要用于开发环境中快速从图像中提取文本内容,提升开发效率。
核心功能
- 图像文本提取:使用 OpenAI 的 GPT-4.1-mini 视觉模型从多种图像格式中提取文本。
- 自动文本文件创建:提取的文本会自动保存为文件,与源图像放在同一目录下。
- 基于内容的文件命名:使用内容哈希生成唯一的文件名,便于文件管理。
- 多格式支持:支持 JPG、PNG、GIF 和 WebP 格式的图像。
- 错误处理与日志:提供详细的错误处理和日志记录功能,便于调试。
适用场景
- 开发者在 Cursor IDE 中快速从图像中提取文本。
- 需要自动化处理大量图像文本的场景。
- 对图像文本提取的准确性和效率有较高要求的场景。
工具列表
- OCR 工具:通过 Cursor IDE 的命令面板调用,用于选择并处理图像文件。
- 文本文件生成工具:自动生成与图像内容对应的文本文件。
常见问题解答
- 文件大小限制:最大支持 5MB 的图像文件,超过此大小的文件会被拒绝。
- API 密钥问题:需要正确设置 OpenAI API 密钥,否则服务无法运行。
- 图像格式问题:仅支持 JPG、PNG、GIF 和 WebP 格式的图像。
使用教程
使用依赖
- 确保已安装 Node.js 和 npm。
- 克隆项目仓库。
安装教程
- 安装依赖:
bash npm install
- 构建 TypeScript 代码:
bash npm run build
- 在
.env
文件中设置 OpenAI API 密钥:OPENAI_API_KEY=your_api_key_here
调试方式
- 运行测试:
bash npm test
- 查看日志:服务会记录详细的处理步骤和错误信息,便于调试。