Gemini Image Generator MCP Server

Gemini Image Generator MCP Server

site icon
2025.03.28 5
Python图像生成AI服务内容生成
Gemini Image Generator MCP Server 是一个基于Google Gemini模型的图像生成服务,通过MCP协议实现文本到图像的转换。该服务支持高质量的图像生成和图像转换,适用于需要快速生成或修改图像的场景。
View on GitHub

Overview

基本能力

产品定位

Gemini Image Generator MCP Server 是一个基于Google Gemini模型的图像生成服务,通过MCP协议实现文本到图像的转换。

核心功能

  • 文本到图像的生成(使用Gemini 2.0 Flash模型)
  • 基于文本提示的图像转换
  • 支持文件或base64编码的图像输入
  • 自动生成基于提示的智能文件名
  • 自动翻译非英语提示
  • 本地图像存储,可配置输出路径
  • 高分辨率图像输出

适用场景

  • 需要快速生成高质量图像的AI助手
  • 需要基于文本提示修改现有图像的应用
  • 需要本地存储和管理生成图像的项目

工具列表

  1. generate_image_from_text:从文本提示生成新图像
  2. 参数:prompt(文本描述)
  3. 返回:原始图像数据和保存的文件路径
  4. transform_image_from_encoded:基于base64编码的图像数据进行转换
  5. 参数:encoded_image(base64编码的图像数据)和prompt(文本描述)
  6. 返回:转换后的图像数据和保存的文件路径
  7. transform_image_from_file:基于文件路径的图像转换
  8. 参数:image_file_path(图像文件路径)和prompt(文本描述)
  9. 返回:转换后的图像数据和保存的文件路径

常见问题解答

  • 性能问题:使用transform_image_from_encoded可能比其他方法耗时更长,因为需要传输大量base64编码数据。
  • 路径解析问题:某些MCP客户端(如Claude Desktop Host)可能无法正确解析返回的文件路径。

使用教程

使用依赖

  • Python 3.11+
  • Google AI API key(Gemini)
  • MCP host application(如Claude Desktop App, Cursor等)

安装教程

  1. 克隆仓库:
git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator
  1. 创建虚拟环境并安装依赖:
python -m venv .venv
source .venv/bin/activate
pip install -e .
  1. 复制环境文件并添加API密钥:
cp .env.example .env
  1. 编辑.env文件:
GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"

调试方式

启动FastMCP开发服务器:

fastmcp dev server.py

访问http://localhost:5173/ 使用MCP Inspector测试图像生成工具。

许可证

该项目遵循 MIT 开源许可条款。