omniparser-autogui-mcp

omniparser-autogui-mcp

2025.03.02 29

Python屏幕分析自动化操作GUI 测试浏览器自动化开发效率

omniparser-autogui-mcp 是一个基于 MCP 协议的服务，利用 OmniParser 技术分析屏幕内容并自动操作图形用户界面（GUI）。该服务主要在 Windows 平台上运行，能够通过自动化操作提升开发效率，适用于浏览器自动化、界面测试等场景。

View on GitHub

Overview

基本能力

产品定位

omniparser-autogui-mcp 是一个自动化 GUI 操作的服务，主要用于屏幕内容分析和自动化操作，提升开发效率。

核心功能

屏幕分析：利用 OmniParser 技术分析屏幕内容。
自动化操作：自动操作图形用户界面（GUI）。
多平台支持：主要在 Windows 平台上运行，支持通过环境变量配置其他平台。
灵活配置：支持多种环境变量配置，如指定窗口名称、OmniParser 后端加载等。

适用场景

浏览器自动化：如自动搜索、操作浏览器界面。
界面测试：自动化测试图形用户界面。
开发效率工具：通过自动化操作减少手动操作时间。

工具列表

OmniParser：用于屏幕内容分析的核心工具。
uv：用于运行和管理服务的工具。

常见问题解答

许可证问题：OmniParser 的模型权重可能有不同的许可证，需注意合规使用。
跨平台问题：在非 Windows 平台上，需使用 export 替代 set 设置环境变量。
客户端兼容性：如与其他客户端（如 LibreChat）不兼容，可设置 OMNI_PARSER_BACKEND_LOAD=1。

使用教程

使用依赖

克隆仓库并安装依赖：

git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync

设置环境变量（Windows）：

set OCR_LANG=en

（非 Windows 平台使用 export OCR_LANG=en）

安装教程

下载模型：

uv run download_models.py

配置 claude_desktop_config.json，添加以下内容：

{
  "mcpServers": {
    "omniparser_autogui_mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\CLONED_PATH\\omniparser-autogui-mcp",
        "run",
        "omniparser-autogui-mcp"
      ],
      "env": {
        "PYTHONIOENCODING": "utf-8",
        "OCR_LANG": "en"
      }
    }
  }
}

（替换 D:\\CLONED_PATH\\omniparser-autogui-mcp 为实际克隆路径）

调试方式

启动服务：

uv run omniparser-autogui-mcp

如需使用 SSE 通信，设置以下环境变量：

set SSE_HOST=127.0.0.1
set SSE_PORT=8000

如需指定操作窗口，设置 TARGET_WINDOW_NAME 环境变量。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。