MCP Image Recognition Server

MCP Image Recognition Server

site icon
2025.04.13 9
Python图像识别文本提取内容生成
MCP Image Recognition Server 是一个提供图像识别能力的服务,利用 Anthropic 和 OpenAI 的视觉 API 进行图像描述和文本提取。支持多种图像格式,可配置主备提供商,并可选使用 Tesseract OCR 进行文本提取。
View on GitHub

Overview

基本能力

产品定位

MCP Image Recognition Server 是一个专注于图像识别和描述的服务,旨在通过先进的视觉 API 提供高质量的图像分析和文本提取功能。

核心功能

  • 使用 Anthropic Claude Vision 或 OpenAI GPT-4 Vision 进行图像描述
  • 支持多种图像格式(JPEG, PNG, GIF, WebP)
  • 可配置的主备提供商
  • 支持 Base64 和文件形式的图像输入
  • 可选使用 Tesseract OCR 进行文本提取

适用场景

  • 图像内容分析和描述
  • 图像中的文本提取
  • 多提供商图像识别服务的灵活配置

工具列表

  1. describe_image
  2. 输入:Base64 编码的图像数据和 MIME 类型
  3. 输出:图像的详细描述
  4. describe_image_from_file
  5. 输入:图像文件路径
  6. 输出:图像的详细描述

常见问题解答

  • 如何配置 OpenRouter?
  • 获取 OpenRouter 的 OpenAI API 密钥
  • .env 文件中设置 OPENAI_API_KEY
  • 设置 OPENAI_BASE_URLhttps://openrouter.ai/api/v1
  • 设置 OPENAI_MODEL 为 OpenRouter 格式的模型名称
  • 设置 VISION_PROVIDERopenai

使用教程

使用依赖

  • Python 3.8 或更高版本
  • Tesseract OCR(可选,用于文本提取)
  • Windows: 从 UB-Mannheim/tesseract 下载并安装
  • Linux: sudo apt-get install tesseract-ocr
  • macOS: brew install tesseract

安装教程

  1. 克隆仓库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
  1. 创建并配置环境文件:
cp .env.example .env
# 编辑 .env 文件,填入 API 密钥和偏好设置
  1. 构建项目:
build.bat

调试方式

  • 运行服务器:
python -m image_recognition_server.server

run.bat server
  • 开发模式(带 MCP Inspector):
run.bat debug
  • 运行测试:
run.bat test

或特定测试套件:

run.bat test server
run.bat test anthropic
run.bat test openai
  • Docker 支持:
docker build -t mcp-image-recognition .
docker run -it --env-file .env mcp-image-recognition

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。