
MCP Screenshot

2024.12.27
11
JavaScript屏幕截图OCR识别内容生成
MCP Screenshot 是一个MCP服务器,主要用于捕获屏幕截图并进行OCR文本识别。它支持多种截图区域(左半部分、右半部分、全屏)和多种输出格式(JSON、Markdown、垂直、水平),并支持日语和英语的OCR识别。
View on GitHub
Overview
基本能力
产品定位
MCP Screenshot 是一个专注于屏幕截图和OCR文本识别的工具,旨在帮助用户快速捕获屏幕内容并提取其中的文本信息。
核心功能
- 截图捕获:支持左半部分、右半部分和全屏截图。
- OCR文本识别:支持日语和英语的文本识别。
- 多种输出格式:支持JSON、Markdown、垂直和水平格式的输出。
适用场景
- 内容提取:从屏幕中提取文本信息,用于进一步处理或分析。
- 自动化测试:在自动化测试中捕获屏幕内容并进行验证。
- 多语言支持:适用于需要处理日语和英语文本的场景。
工具列表
- capture:捕获屏幕截图并进行OCR识别。
- 选项:
region
:截图区域('left'/'right'/'full',默认:'left')。format
:输出格式('json'/'markdown'/'vertical'/'horizontal',默认:'markdown')。
常见问题解答
- OCR引擎:使用yomitoku作为主要OCR引擎,Tesseract.js作为备用引擎。
- 环境变量:可通过
OCR_API_URL
设置yomitoku API的基础URL。
使用教程
使用依赖
无特殊依赖,直接通过npm安装即可。
安装教程
npx -y @kazuph/mcp-screenshot
Claude Desktop配置
将以下配置添加到claude_desktop_config.json
中:
{
"mcpServers": {
"screenshot": {
"command": "npx",
"args": ["-y", "@kazuph/mcp-screenshot"],
"env": {
"OCR_API_URL": "http://localhost:8000" // yomitoku API base URL
}
}
}
}
调试方式
安装完成后,可以通过以下命令测试功能:
npx @kazuph/mcp-screenshot capture --region left --format markdown