
MCP Image Recognition Server

2025.04.13
9
Python图像识别文本提取内容生成
MCP Image Recognition Server 是一个提供图像识别能力的服务,利用 Anthropic 和 OpenAI 的视觉 API 进行图像描述和文本提取。支持多种图像格式,可配置主备提供商,并可选使用 Tesseract OCR 进行文本提取。
View on GitHub
Overview
基本能力
产品定位
MCP Image Recognition Server 是一个专注于图像识别和描述的服务,旨在通过先进的视觉 API 提供高质量的图像分析和文本提取功能。
核心功能
- 使用 Anthropic Claude Vision 或 OpenAI GPT-4 Vision 进行图像描述
- 支持多种图像格式(JPEG, PNG, GIF, WebP)
- 可配置的主备提供商
- 支持 Base64 和文件形式的图像输入
- 可选使用 Tesseract OCR 进行文本提取
适用场景
- 图像内容分析和描述
- 图像中的文本提取
- 多提供商图像识别服务的灵活配置
工具列表
describe_image
- 输入:Base64 编码的图像数据和 MIME 类型
- 输出:图像的详细描述
describe_image_from_file
- 输入:图像文件路径
- 输出:图像的详细描述
常见问题解答
- 如何配置 OpenRouter?
- 获取 OpenRouter 的 OpenAI API 密钥
- 在
.env
文件中设置OPENAI_API_KEY
- 设置
OPENAI_BASE_URL
为https://openrouter.ai/api/v1
- 设置
OPENAI_MODEL
为 OpenRouter 格式的模型名称 - 设置
VISION_PROVIDER
为openai
使用教程
使用依赖
- Python 3.8 或更高版本
- Tesseract OCR(可选,用于文本提取)
- Windows: 从 UB-Mannheim/tesseract 下载并安装
- Linux:
sudo apt-get install tesseract-ocr
- macOS:
brew install tesseract
安装教程
- 克隆仓库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
- 创建并配置环境文件:
cp .env.example .env
# 编辑 .env 文件,填入 API 密钥和偏好设置
- 构建项目:
build.bat
调试方式
- 运行服务器:
python -m image_recognition_server.server
或
run.bat server
- 开发模式(带 MCP Inspector):
run.bat debug
- 运行测试:
run.bat test
或特定测试套件:
run.bat test server
run.bat test anthropic
run.bat test openai
- Docker 支持:
docker build -t mcp-image-recognition .
docker run -it --env-file .env mcp-image-recognition