MCP Screenshot

MCP Screenshot

site icon
2024.12.27 11
JavaScript屏幕截图OCR识别内容生成
MCP Screenshot 是一个MCP服务器,主要用于捕获屏幕截图并进行OCR文本识别。它支持多种截图区域(左半部分、右半部分、全屏)和多种输出格式(JSON、Markdown、垂直、水平),并支持日语和英语的OCR识别。
View on GitHub

Overview

基本能力

产品定位

MCP Screenshot 是一个专注于屏幕截图和OCR文本识别的工具,旨在帮助用户快速捕获屏幕内容并提取其中的文本信息。

核心功能

  • 截图捕获:支持左半部分、右半部分和全屏截图。
  • OCR文本识别:支持日语和英语的文本识别。
  • 多种输出格式:支持JSON、Markdown、垂直和水平格式的输出。

适用场景

  • 内容提取:从屏幕中提取文本信息,用于进一步处理或分析。
  • 自动化测试:在自动化测试中捕获屏幕内容并进行验证。
  • 多语言支持:适用于需要处理日语和英语文本的场景。

工具列表

  • capture:捕获屏幕截图并进行OCR识别。
  • 选项:
    • region:截图区域('left'/'right'/'full',默认:'left')。
    • format:输出格式('json'/'markdown'/'vertical'/'horizontal',默认:'markdown')。

常见问题解答

  • OCR引擎:使用yomitoku作为主要OCR引擎,Tesseract.js作为备用引擎。
  • 环境变量:可通过OCR_API_URL设置yomitoku API的基础URL。

使用教程

使用依赖

无特殊依赖,直接通过npm安装即可。

安装教程

npx -y @kazuph/mcp-screenshot

Claude Desktop配置

将以下配置添加到claude_desktop_config.json中:

{
  "mcpServers": {
    "screenshot": {
      "command": "npx",
      "args": ["-y", "@kazuph/mcp-screenshot"],
      "env": {
        "OCR_API_URL": "http://localhost:8000"  // yomitoku API base URL
      }
    }
  }
}

调试方式

安装完成后,可以通过以下命令测试功能:

npx @kazuph/mcp-screenshot capture --region left --format markdown

许可证

该项目遵循 MIT 开源许可条款。