MCP Screenshot

MCP Screenshot

2024.12.27 11

JavaScript屏幕截图OCR识别内容生成

MCP Screenshot 是一个MCP服务器，主要用于捕获屏幕截图并进行OCR文本识别。它支持多种截图区域（左半部分、右半部分、全屏）和多种输出格式（JSON、Markdown、垂直、水平），并支持日语和英语的OCR识别。

View on GitHub

Overview

基本能力

产品定位

MCP Screenshot 是一个专注于屏幕截图和OCR文本识别的工具，旨在帮助用户快速捕获屏幕内容并提取其中的文本信息。

核心功能

截图捕获：支持左半部分、右半部分和全屏截图。
OCR文本识别：支持日语和英语的文本识别。
多种输出格式：支持JSON、Markdown、垂直和水平格式的输出。

适用场景

内容提取：从屏幕中提取文本信息，用于进一步处理或分析。
自动化测试：在自动化测试中捕获屏幕内容并进行验证。
多语言支持：适用于需要处理日语和英语文本的场景。

工具列表

capture：捕获屏幕截图并进行OCR识别。
选项：
- region：截图区域（'left'/'right'/'full'，默认：'left'）。
- format：输出格式（'json'/'markdown'/'vertical'/'horizontal'，默认：'markdown'）。

常见问题解答

OCR引擎：使用yomitoku作为主要OCR引擎，Tesseract.js作为备用引擎。
环境变量：可通过OCR_API_URL设置yomitoku API的基础URL。

使用教程

使用依赖

无特殊依赖，直接通过npm安装即可。

安装教程

npx -y @kazuph/mcp-screenshot

Claude Desktop配置

将以下配置添加到claude_desktop_config.json中：

{
  "mcpServers": {
    "screenshot": {
      "command": "npx",
      "args": ["-y", "@kazuph/mcp-screenshot"],
      "env": {
        "OCR_API_URL": "http://localhost:8000"  // yomitoku API base URL
      }
    }
  }
}

调试方式

安装完成后，可以通过以下命令测试功能：

npx @kazuph/mcp-screenshot capture --region left --format markdown

许可证

该项目遵循 MIT 开源许可条款。