AI Vision MCP Server

AI Vision MCP Server

site icon
2025.03.10 0
JavaScriptAI视觉分析网页截图UI分析报告生成浏览器自动化开发效率
AI Vision MCP Server 是一个基于模型上下文协议(MCP)的服务,为Claude和其他兼容MCP的AI助手提供AI驱动的视觉分析能力。该服务能够通过URL捕获网页截图,分析UI元素、布局和内容,进行文件操作,生成UI/UX分析报告,并支持跨多步分析的调试会话。
View on GitHub

Overview

基本能力

产品定位

AI Vision MCP Server 是一个提供AI视觉分析能力的服务,主要用于网页截图、UI分析和报告生成。

核心功能

  • Screenshot URL: 通过URL捕获网页截图
  • Visual Analysis: 分析截图中的UI元素、布局和内容
  • File Operations: 精确到行的文件读写操作
  • Report Generation: 生成全面的UI/UX分析报告
  • Debugging Session: 支持跨多步分析的调试会话

适用场景

  • 网页UI自动化测试
  • UI/UX分析报告生成
  • 开发过程中的视觉调试
  • 自动化文件操作

工具列表

  • screenshot_url: 通过URL捕获网页截图
  • analyze_screen: 分析截图中的UI元素
  • read_file: 读取文件指定行内容
  • modify_file: 修改文件指定行内容
  • generate_report: 生成UI/UX分析报告

常见问题解答

  • 需要Node.js 14+环境
  • 需要Playwright进行浏览器自动化
  • 需要Gemini API密钥进行AI视觉分析

使用教程

使用依赖

  • Node.js 14+
  • Playwright
  • Gemini API key

安装教程

# Clone the repository
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision

# Install dependencies
npm install

# Build the server
npm run build

调试方式

# 启动服务器
npm start

# 配置MCP
{
  "servers": {
    "ai-vision": {
      "command": "/path/to/node",
      "args": ["/path/to/mcp-server-ai-vision/build/index.js"],
      "enabled": true,
      "port": 3005,
      "environment": {
        "NODE_PATH": "/path/to/node_modules",
        "PATH": "/usr/local/bin:/usr/bin:/bin",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

许可证

该项目遵循 MIT 开源许可条款。