MSPaint MCP Server with AI-based Planning Algorithms

MSPaint MCP Server with AI-based Planning Algorithms

site icon
2025.04.06 0
PythonAI自动化数学问题解决MSPaint集成开发效率内容生成
MSPaint-MCP-Server-V2 是一个结合了高级AI提示技术和模型上下文协议(MCP)的项目,旨在通过AI代理(基于Google的Gemini模型)与传统的Windows应用程序(如MSPaint)进行交互。该项目展示了如何使用结构化提示使大型语言模型(LLM)能够处理复杂的多步骤数学问题,并通过MSPaint绘制解决方案。
View on GitHub

Overview

基本能力

产品定位

MSPaint-MCP-Server-V2 是一个AI驱动的自动化工具,专注于通过结构化提示和MCP协议解决复杂数学问题,并将结果可视化在MSPaint上。

核心功能

  1. AI驱动的数学问题解决:使用Google Gemini模型处理复杂的多步骤数学表达式。
  2. MSPaint自动化:通过pywinauto控制MSPaint应用程序,实现自动打开、绘制矩形和添加文本等功能。
  3. 结构化提示:提供严格的指令格式,确保AI代理按步骤解决问题并验证结果。
  4. 工具集成:定义并实现多种数学工具(如加减乘除、验证计算等)和Paint工具(如打开Paint、绘制矩形等)。

适用场景

  1. 教育领域:用于演示复杂数学问题的分步解决过程。
  2. 自动化测试:验证AI模型在结构化任务中的表现。
  3. 创意可视化:将数学结果以图形化方式展示在MSPaint上。

工具列表

  1. 数学工具
  2. add, subtract, multiply, divide:基本数学运算。
  3. verify_calculation:验证计算结果的正确性。
  4. verify_consistency:验证所有步骤的一致性。
  5. Paint工具
  6. open_paint:打开MSPaint应用程序。
  7. draw_rectangle:在Paint上绘制矩形。
  8. add_text_in_paint:在Paint上添加文本。

常见问题解答

  1. 权限问题:尝试以管理员身份运行脚本。
  2. 坐标问题:根据屏幕分辨率和窗口大小调整MSPaint中的坐标。
  3. 工具选择问题:检查系统提示中的工具描述是否准确。
  4. API密钥问题:确保.env文件中正确设置了Gemini API密钥。

使用教程

使用依赖

  1. Python 3.11+:确保安装Python 3.11或更高版本。
  2. Conda:推荐用于环境管理。
  3. 依赖包:安装以下依赖包: bash pip install pywin32 pywinauto fastmcp python-dotenv google-genai rich

安装教程

  1. 创建Conda环境bash conda create -n eagenv python=3.11 conda activate eagenv
  2. 安装依赖bash pip install -r requirements.txt
  3. 设置Gemini API密钥
  4. 在项目目录中创建.env文件。
  5. 添加以下内容: GEMINI_API_KEY=YOUR_API_KEY

调试方式

  1. 运行MCP客户端bash python mcp_paint_app/mcp_client.py
  2. 调试坐标问题:使用代码中的调试打印语句确认正确的坐标。
  3. 检查工具调用:确保AI代理按预期调用工具。

许可证

该项目遵循 MIT 开源许可条款。