MCP Image Recognition Server

MCP Image Recognition Server

2025.04.13 9

Python图像识别文本提取内容生成

MCP Image Recognition Server 是一个提供图像识别能力的服务，利用 Anthropic 和 OpenAI 的视觉 API 进行图像描述和文本提取。支持多种图像格式，可配置主备提供商，并可选使用 Tesseract OCR 进行文本提取。

View on GitHub

Overview

基本能力

产品定位

MCP Image Recognition Server 是一个专注于图像识别和描述的服务，旨在通过先进的视觉 API 提供高质量的图像分析和文本提取功能。

核心功能

使用 Anthropic Claude Vision 或 OpenAI GPT-4 Vision 进行图像描述
支持多种图像格式（JPEG, PNG, GIF, WebP）
可配置的主备提供商
支持 Base64 和文件形式的图像输入
可选使用 Tesseract OCR 进行文本提取

适用场景

图像内容分析和描述
图像中的文本提取
多提供商图像识别服务的灵活配置

工具列表

describe_image
输入：Base64 编码的图像数据和 MIME 类型
输出：图像的详细描述
describe_image_from_file
输入：图像文件路径
输出：图像的详细描述

常见问题解答

如何配置 OpenRouter？
获取 OpenRouter 的 OpenAI API 密钥
在 .env 文件中设置 OPENAI_API_KEY
设置 OPENAI_BASE_URL 为 https://openrouter.ai/api/v1
设置 OPENAI_MODEL 为 OpenRouter 格式的模型名称
设置 VISION_PROVIDER 为 openai

使用教程

使用依赖

Python 3.8 或更高版本
Tesseract OCR（可选，用于文本提取）
Windows: 从 UB-Mannheim/tesseract 下载并安装
Linux: sudo apt-get install tesseract-ocr
macOS: brew install tesseract

安装教程

克隆仓库：

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition

创建并配置环境文件：

cp .env.example .env
# 编辑 .env 文件，填入 API 密钥和偏好设置

构建项目：

build.bat

调试方式

运行服务器：

python -m image_recognition_server.server

或

run.bat server

开发模式（带 MCP Inspector）：

run.bat debug

运行测试：

run.bat test

或特定测试套件：

run.bat test server
run.bat test anthropic
run.bat test openai

Docker 支持：

docker build -t mcp-image-recognition .
docker run -it --env-file .env mcp-image-recognition

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。