
Gemini Image Generator MCP Server

2025.04.04
1
Python图像生成AI 图像处理内容生成
Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务,通过 MCP 协议实现文本到图像的转换和图像变换功能。该服务提供高质量的图像生成能力,支持文本描述生成图像、基于文本提示的图像变换,并具备自动文件名生成、非英语提示翻译等功能。
View on GitHub
Overview
基本能力
产品定位
Gemini Image Generator MCP Server 是一个基于 Google Gemini AI 模型的图像生成服务,通过 MCP 协议实现文本到图像的转换和图像变换功能。
核心功能
- 使用 Gemini 2.0 Flash 进行文本到图像生成
- 基于文本提示的图像变换
- 支持文件路径和 base64 编码的图像输入
- 自动智能文件名生成
- 非英语提示自动翻译
- 可配置的本地图像存储路径
- 高分辨率图像输出
- 直接访问图像数据和文件路径
适用场景
- 通过文本描述生成高质量图像
- 对现有图像进行基于文本提示的变换
- 在 AI 助手中集成图像生成功能
工具列表
generate_image_from_text
: 从文本提示生成新图像- 参数:
prompt
(文本描述) - 返回: 原始图像数据 (bytes) 和保存的图像文件路径 (str)
transform_image_from_encoded
: 使用 base64 编码的图像数据进行变换- 参数:
encoded_image
(base64 编码图像数据) 和prompt
(变换描述) - 返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)
transform_image_from_file
: 使用文件路径进行图像变换- 参数:
image_file_path
(图像文件路径) 和prompt
(变换描述) - 返回: 变换后的图像数据 (bytes) 和保存的图像文件路径 (str)
常见问题解答
- 性能问题: 使用
transform_image_from_encoded
可能比其他方法处理时间更长,因为需要传输大量 base64 编码数据 - 路径解析问题: 某些 MCP 客户端可能无法正确解析返回的文件路径
使用教程
使用依赖
- Python 3.11+
- Google AI API key (Gemini)
- MCP 主机应用程序 (如 Claude Desktop App, Cursor 或其他兼容 MCP 的客户端)
安装教程
- 克隆仓库:
git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator
- 创建虚拟环境并安装依赖:
python -m venv .venv
source .venv/bin/activate
pip install -e .
- 复制环境文件并添加 API key:
cp .env.example .env
- 编辑
.env
文件:
GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"
调试方式
启动 FastMCP 开发服务器:
fastmcp dev server.py
访问 http://localhost:5173/ 使用 MCP Inspector 测试图像生成工具。