omniparser-autogui-mcp

omniparser-autogui-mcp

site icon
2025.03.02 29
Python屏幕分析自动化操作GUI 测试浏览器自动化开发效率
omniparser-autogui-mcp 是一个基于 MCP 协议的服务,利用 OmniParser 技术分析屏幕内容并自动操作图形用户界面(GUI)。该服务主要在 Windows 平台上运行,能够通过自动化操作提升开发效率,适用于浏览器自动化、界面测试等场景。
View on GitHub

Overview

基本能力

产品定位

omniparser-autogui-mcp 是一个自动化 GUI 操作的服务,主要用于屏幕内容分析和自动化操作,提升开发效率。

核心功能

  1. 屏幕分析:利用 OmniParser 技术分析屏幕内容。
  2. 自动化操作:自动操作图形用户界面(GUI)。
  3. 多平台支持:主要在 Windows 平台上运行,支持通过环境变量配置其他平台。
  4. 灵活配置:支持多种环境变量配置,如指定窗口名称、OmniParser 后端加载等。

适用场景

  1. 浏览器自动化:如自动搜索、操作浏览器界面。
  2. 界面测试:自动化测试图形用户界面。
  3. 开发效率工具:通过自动化操作减少手动操作时间。

工具列表

  1. OmniParser:用于屏幕内容分析的核心工具。
  2. uv:用于运行和管理服务的工具。

常见问题解答

  1. 许可证问题:OmniParser 的模型权重可能有不同的许可证,需注意合规使用。
  2. 跨平台问题:在非 Windows 平台上,需使用 export 替代 set 设置环境变量。
  3. 客户端兼容性:如与其他客户端(如 LibreChat)不兼容,可设置 OMNI_PARSER_BACKEND_LOAD=1

使用教程

使用依赖

  1. 克隆仓库并安装依赖:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
  1. 设置环境变量(Windows):
set OCR_LANG=en

(非 Windows 平台使用 export OCR_LANG=en

安装教程

  1. 下载模型:
uv run download_models.py
  1. 配置 claude_desktop_config.json,添加以下内容:
{
  "mcpServers": {
    "omniparser_autogui_mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\CLONED_PATH\\omniparser-autogui-mcp",
        "run",
        "omniparser-autogui-mcp"
      ],
      "env": {
        "PYTHONIOENCODING": "utf-8",
        "OCR_LANG": "en"
      }
    }
  }
}

(替换 D:\\CLONED_PATH\\omniparser-autogui-mcp 为实际克隆路径)

调试方式

  1. 启动服务:
uv run omniparser-autogui-mcp
  1. 如需使用 SSE 通信,设置以下环境变量:
set SSE_HOST=127.0.0.1
set SSE_PORT=8000
  1. 如需指定操作窗口,设置 TARGET_WINDOW_NAME 环境变量。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。