MCP Desktop Automation

MCP Desktop Automation

site icon
2025.03.24 1
JavaScript桌面自动化鼠标控制键盘输入屏幕截图浏览器自动化
MCP Desktop Automation 是一个基于 Model Context Protocol 的服务,提供桌面自动化能力,包括通过 RobotJS 控制鼠标移动、键盘输入以及捕获桌面环境的截图。该服务使 LLMs 能够模拟用户操作,实现自动化任务。
View on GitHub

Overview

基本能力

产品定位

MCP Desktop Automation 是一个桌面自动化服务,旨在通过编程方式控制桌面操作,如鼠标移动、键盘输入和屏幕截图捕获。

核心功能

  • 鼠标控制:移动鼠标到指定坐标,执行单击或双击操作。
  • 键盘输入:模拟键盘按键或组合键,支持文本输入。
  • 屏幕截图:捕获当前屏幕内容,支持获取屏幕尺寸。
  • 简单JSON响应格式:所有操作返回JSON格式的响应,便于集成和处理。

适用场景

  • 自动化测试:模拟用户操作进行UI测试。
  • 远程协助:通过程序控制远程桌面。
  • 数据采集:自动化截图用于数据记录或分析。
  • 办公自动化:自动化重复的键盘和鼠标操作,提高效率。

工具列表

  • get_screen_size:获取屏幕尺寸。
  • screen_capture:捕获当前屏幕内容。
  • keyboard_press:模拟键盘按键或组合键。
  • keyboard_type:在当前位置输入文本。
  • mouse_click:执行鼠标单击或双击。
  • mouse_move:移动鼠标到指定坐标。

常见问题解答

  • 权限问题:首次运行时需在操作系统安全设置中授予截图和输入控制权限。
  • 响应大小限制:当前实现有1MB响应大小限制,高分辨率截图可能失败,建议使用800x600分辨率或捕获特定区域。

使用教程

使用依赖

  • Node.js (>=14.x)

安装教程

{
  "mcpServers": {
    "desktop-automation": {
      "command": "npx",
      "args": ["-y", "mcp-desktop-automation"]
    }
  }
}

调试方式

  1. 确保已安装 Node.js 并配置好环境。
  2. 运行上述配置命令启动服务。
  3. 使用提供的工具(如 mouse_movekeyboard_press)进行测试,观察操作是否按预期执行。
  4. 检查系统权限设置,确保已授予必要的权限。

许可证

该项目遵循 MIT 开源许可条款。