Gemini Image Generator MCP Server

Gemini Image Generator MCP Server

2025.04.04 1

Python图像生成AI 图像处理内容生成

Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务，通过 MCP 协议实现文本到图像的转换和图像变换功能。该服务提供高质量的图像生成能力，支持文本描述生成图像、基于文本提示的图像变换，并具备自动文件名生成、非英语提示翻译等功能。

View on GitHub

Overview

基本能力

产品定位

Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务，通过 MCP 协议实现文本到图像的转换和图像变换功能。

核心功能

使用 Gemini 2.0 Flash 进行文本到图像生成
基于文本提示的图像变换
支持文件路径和 base64 编码的图像输入
自动智能文件名生成
非英语提示自动翻译
可配置的本地图像存储路径
高分辨率图像输出
直接访问图像数据和文件路径

适用场景

通过文本描述生成高质量图像
对现有图像进行基于文本提示的变换
在 AI 助手中集成图像生成功能

工具列表

generate_image_from_text: 从文本提示生成新图像
参数: prompt (文本描述)
返回: 原始图像数据 (bytes) 和保存的图像文件路径 (str)
transform_image_from_encoded: 使用 base64 编码的图像数据进行变换
参数: encoded_image (base64 编码图像数据) 和 prompt (变换描述)
返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)
transform_image_from_file: 使用文件路径进行图像变换
参数: image_file_path (图像文件路径) 和 prompt (变换描述)
返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)

常见问题解答

性能问题: 使用 transform_image_from_encoded 可能比其他方法处理时间更长，因为需要传输大量 base64 编码数据
路径解析问题: 某些 MCP 客户端可能无法正确解析返回的文件路径

使用教程

使用依赖

Python 3.11+
Google AI API key (Gemini)
MCP 主机应用程序 (如 Claude Desktop App, Cursor 或其他兼容 MCP 的客户端)

安装教程

克隆仓库:

git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator

创建虚拟环境并安装依赖:

python -m venv .venv
source .venv/bin/activate
pip install -e .

复制环境文件并添加 API key:

cp .env.example .env

编辑 .env 文件:

GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"

调试方式

启动 FastMCP 开发服务器:

fastmcp dev server.py

访问 http://localhost:5173/ 使用 MCP Inspector 测试图像生成工具。

许可证

该项目遵循 MIT 开源许可条款。