
MSPaint MCP Server with AI-based Planning Algorithms

2025.04.06
0
PythonAI自动化数学问题解决MSPaint集成开发效率内容生成
MSPaint-MCP-Server-V2 是一个结合了高级AI提示技术和模型上下文协议(MCP)的项目,旨在通过AI代理(基于Google的Gemini模型)与传统的Windows应用程序(如MSPaint)进行交互。该项目展示了如何使用结构化提示使大型语言模型(LLM)能够处理复杂的多步骤数学问题,并通过MSPaint绘制解决方案。
View on GitHub
Overview
基本能力
产品定位
MSPaint-MCP-Server-V2 是一个AI驱动的自动化工具,专注于通过结构化提示和MCP协议解决复杂数学问题,并将结果可视化在MSPaint上。
核心功能
- AI驱动的数学问题解决:使用Google Gemini模型处理复杂的多步骤数学表达式。
- MSPaint自动化:通过
pywinauto
控制MSPaint应用程序,实现自动打开、绘制矩形和添加文本等功能。 - 结构化提示:提供严格的指令格式,确保AI代理按步骤解决问题并验证结果。
- 工具集成:定义并实现多种数学工具(如加减乘除、验证计算等)和Paint工具(如打开Paint、绘制矩形等)。
适用场景
- 教育领域:用于演示复杂数学问题的分步解决过程。
- 自动化测试:验证AI模型在结构化任务中的表现。
- 创意可视化:将数学结果以图形化方式展示在MSPaint上。
工具列表
- 数学工具:
add
,subtract
,multiply
,divide
:基本数学运算。verify_calculation
:验证计算结果的正确性。verify_consistency
:验证所有步骤的一致性。- Paint工具:
open_paint
:打开MSPaint应用程序。draw_rectangle
:在Paint上绘制矩形。add_text_in_paint
:在Paint上添加文本。
常见问题解答
- 权限问题:尝试以管理员身份运行脚本。
- 坐标问题:根据屏幕分辨率和窗口大小调整MSPaint中的坐标。
- 工具选择问题:检查系统提示中的工具描述是否准确。
- API密钥问题:确保
.env
文件中正确设置了Gemini API密钥。
使用教程
使用依赖
- Python 3.11+:确保安装Python 3.11或更高版本。
- Conda:推荐用于环境管理。
- 依赖包:安装以下依赖包:
bash pip install pywin32 pywinauto fastmcp python-dotenv google-genai rich
安装教程
- 创建Conda环境:
bash conda create -n eagenv python=3.11 conda activate eagenv
- 安装依赖:
bash pip install -r requirements.txt
- 设置Gemini API密钥:
- 在项目目录中创建
.env
文件。 - 添加以下内容:
GEMINI_API_KEY=YOUR_API_KEY
调试方式
- 运行MCP客户端:
bash python mcp_paint_app/mcp_client.py
- 调试坐标问题:使用代码中的调试打印语句确认正确的坐标。
- 检查工具调用:确保AI代理按预期调用工具。