Gemini Image Generator MCP Server

Gemini Image Generator MCP Server

site icon
2025.04.04 1
Python图像生成AI 图像处理内容生成
Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务,通过 MCP 协议实现文本到图像的转换和图像变换功能。该服务提供高质量的图像生成能力,支持文本描述生成图像、基于文本提示的图像变换,并具备自动文件名生成、非英语提示翻译等功能。
View on GitHub

Overview

基本能力

产品定位

Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务,通过 MCP 协议实现文本到图像的转换和图像变换功能。

核心功能

  • 使用 Gemini 2.0 Flash 进行文本到图像生成
  • 基于文本提示的图像变换
  • 支持文件路径和 base64 编码的图像输入
  • 自动智能文件名生成
  • 非英语提示自动翻译
  • 可配置的本地图像存储路径
  • 高分辨率图像输出
  • 直接访问图像数据和文件路径

适用场景

  • 通过文本描述生成高质量图像
  • 对现有图像进行基于文本提示的变换
  • 在 AI 助手中集成图像生成功能

工具列表

  1. generate_image_from_text: 从文本提示生成新图像
  2. 参数: prompt (文本描述)
  3. 返回: 原始图像数据 (bytes) 和保存的图像文件路径 (str)
  4. transform_image_from_encoded: 使用 base64 编码的图像数据进行变换
  5. 参数: encoded_image (base64 编码图像数据) 和 prompt (变换描述)
  6. 返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)
  7. transform_image_from_file: 使用文件路径进行图像变换
  8. 参数: image_file_path (图像文件路径) 和 prompt (变换描述)
  9. 返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)

常见问题解答

  • 性能问题: 使用 transform_image_from_encoded 可能比其他方法处理时间更长,因为需要传输大量 base64 编码数据
  • 路径解析问题: 某些 MCP 客户端可能无法正确解析返回的文件路径

使用教程

使用依赖

  • Python 3.11+
  • Google AI API key (Gemini)
  • MCP 主机应用程序 (如 Claude Desktop App, Cursor 或其他兼容 MCP 的客户端)

安装教程

  1. 克隆仓库:
git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator
  1. 创建虚拟环境并安装依赖:
python -m venv .venv
source .venv/bin/activate
pip install -e .
  1. 复制环境文件并添加 API key:
cp .env.example .env
  1. 编辑 .env 文件:
GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"

调试方式

启动 FastMCP 开发服务器:

fastmcp dev server.py

访问 http://localhost:5173/ 使用 MCP Inspector 测试图像生成工具。

许可证

该项目遵循 MIT 开源许可条款。