
MCP Evals

2025.04.23
0
TypeScriptMCP 工具评估LLM 评分开发效率
MCP Evals 是一个 Node.js 包和 GitHub Action,用于通过基于 LLM 的评分来评估 MCP(Model Context Protocol)工具的实现。它帮助确保您的 MCP 服务器的工具正常工作并表现良好。
View on GitHub
Overview
基本能力
产品定位
MCP Evals 是一个用于评估 MCP 工具实现的工具,旨在通过 LLM 评分确保工具的正确性和性能。
核心功能
- LLM 评分:使用基于 LLM 的评分系统评估 MCP 工具的实现。
- 多种运行方式:可以作为 Node.js 包或 GitHub Action 运行。
- 自定义评估:支持自定义评估配置和评估函数。
- 结果分析:提供详细的评估结果,包括准确性、完整性、相关性、清晰度和推理能力等评分。
适用场景
- MCP 工具开发:在开发 MCP 工具时,用于验证工具的正确性和性能。
- 持续集成:在 GitHub Actions 中集成,作为持续集成的一部分,确保每次代码变更后工具仍能正常工作。
- 性能优化:通过评估结果,识别工具的弱点并进行优化。
工具列表
- Node.js 包:提供 CLI 和编程接口,支持本地运行评估。
- GitHub Action:在 GitHub 工作流中自动运行评估,并将结果发布到 PR 评论中。
常见问题解答
- 依赖问题:确保已安装 Node.js 和 npm,并正确配置 OpenAI API 密钥。
- 评估失败:检查评估配置是否正确,尤其是
evals_path
和openai_api_key
。 - 结果不准确:尝试调整评估函数或使用更高版本的 LLM(如 GPT-4)。
使用教程
使用依赖
- 安装 Node.js 和 npm。
- 获取 OpenAI API 密钥并设置为环境变量
OPENAI_API_KEY
。
安装教程
作为 Node.js 包
npm install @matthewlenhard/mcp-evals
作为 GitHub Action
在 GitHub 工作流文件中添加以下内容:
name: Run MCP Evaluations
on:
pull_request:
types: [opened, synchronize, reopened]
jobs:
evaluate:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: Setup Node.js
uses: actions/setup-node@v4
with:
node-version: '20'
- name: Install dependencies
run: npm ci
- name: Run MCP Evaluations
uses: matthewlenhard/mcp-evals@v1
with:
evals_path: 'path/to/your/evals.ts'
openai_api_key: ${{ secrets.OPENAI_API_KEY }}
model: 'gpt-4' # Optional, defaults to gpt-4
调试方式
- 运行评估并检查输出结果:
npx mcp-eval path/to/your/evals.ts
- 检查环境变量
OPENAI_API_KEY
是否已正确设置。 - 确保评估配置文件(如
evals.ts
)中的路径和配置正确。