MCP Evals - FindMCP.info

Overview

基本能力

产品定位

MCP Evals 是一个用于评估 MCP 工具实现的工具，旨在通过 LLM 评分确保工具的正确性和性能。

核心功能

LLM 评分：使用基于 LLM 的评分系统评估 MCP 工具的实现。
多种运行方式：可以作为 Node.js 包或 GitHub Action 运行。
自定义评估：支持自定义评估配置和评估函数。
结果分析：提供详细的评估结果，包括准确性、完整性、相关性、清晰度和推理能力等评分。

适用场景

MCP 工具开发：在开发 MCP 工具时，用于验证工具的正确性和性能。
持续集成：在 GitHub Actions 中集成，作为持续集成的一部分，确保每次代码变更后工具仍能正常工作。
性能优化：通过评估结果，识别工具的弱点并进行优化。

工具列表

Node.js 包：提供 CLI 和编程接口，支持本地运行评估。
GitHub Action：在 GitHub 工作流中自动运行评估，并将结果发布到 PR 评论中。

常见问题解答

依赖问题：确保已安装 Node.js 和 npm，并正确配置 OpenAI API 密钥。
评估失败：检查评估配置是否正确，尤其是 evals_path 和 openai_api_key。
结果不准确：尝试调整评估函数或使用更高版本的 LLM（如 GPT-4）。

使用教程

使用依赖

安装 Node.js 和 npm。
获取 OpenAI API 密钥并设置为环境变量 OPENAI_API_KEY。

安装教程

作为 Node.js 包

npm install @matthewlenhard/mcp-evals

作为 GitHub Action

在 GitHub 工作流文件中添加以下内容：

name: Run MCP Evaluations

on:
  pull_request:
    types: [opened, synchronize, reopened]

jobs:
  evaluate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Setup Node.js
        uses: actions/setup-node@v4
        with:
          node-version: '20'

      - name: Install dependencies
        run: npm ci

      - name: Run MCP Evaluations
        uses: matthewlenhard/mcp-evals@v1
        with:
          evals_path: 'path/to/your/evals.ts'
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          model: 'gpt-4'  # Optional, defaults to gpt-4

调试方式

运行评估并检查输出结果：

npx mcp-eval path/to/your/evals.ts

检查环境变量 OPENAI_API_KEY 是否已正确设置。
确保评估配置文件（如 evals.ts）中的路径和配置正确。

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。