
MCP Desktop Automation

2025.03.24
1
JavaScript桌面自动化鼠标控制键盘输入屏幕截图浏览器自动化
MCP Desktop Automation 是一个基于 Model Context Protocol 的服务,提供桌面自动化能力,包括通过 RobotJS 控制鼠标移动、键盘输入以及捕获桌面环境的截图。该服务使 LLMs 能够模拟用户操作,实现自动化任务。
View on GitHub
Overview
基本能力
产品定位
MCP Desktop Automation 是一个桌面自动化服务,旨在通过编程方式控制桌面操作,如鼠标移动、键盘输入和屏幕截图捕获。
核心功能
- 鼠标控制:移动鼠标到指定坐标,执行单击或双击操作。
- 键盘输入:模拟键盘按键或组合键,支持文本输入。
- 屏幕截图:捕获当前屏幕内容,支持获取屏幕尺寸。
- 简单JSON响应格式:所有操作返回JSON格式的响应,便于集成和处理。
适用场景
- 自动化测试:模拟用户操作进行UI测试。
- 远程协助:通过程序控制远程桌面。
- 数据采集:自动化截图用于数据记录或分析。
- 办公自动化:自动化重复的键盘和鼠标操作,提高效率。
工具列表
- get_screen_size:获取屏幕尺寸。
- screen_capture:捕获当前屏幕内容。
- keyboard_press:模拟键盘按键或组合键。
- keyboard_type:在当前位置输入文本。
- mouse_click:执行鼠标单击或双击。
- mouse_move:移动鼠标到指定坐标。
常见问题解答
- 权限问题:首次运行时需在操作系统安全设置中授予截图和输入控制权限。
- 响应大小限制:当前实现有1MB响应大小限制,高分辨率截图可能失败,建议使用800x600分辨率或捕获特定区域。
使用教程
使用依赖
- Node.js (>=14.x)
安装教程
{
"mcpServers": {
"desktop-automation": {
"command": "npx",
"args": ["-y", "mcp-desktop-automation"]
}
}
}
调试方式
- 确保已安装 Node.js 并配置好环境。
- 运行上述配置命令启动服务。
- 使用提供的工具(如
mouse_move
、keyboard_press
)进行测试,观察操作是否按预期执行。 - 检查系统权限设置,确保已授予必要的权限。