
🦊 MCPBench: A Benchmark for Evaluating MCP Servers

2025.04.16
46
Python评估框架性能测试开发效率
MCPBench 是一个用于评估 MCP 服务器的框架,支持对 Web 搜索和数据库查询两种类型的服务器进行评估,兼容本地和远程 MCP 服务器。该框架主要评估不同 MCP 服务器(如 Brave Search、DuckDuckGo 等)在相同 LLM 和 Agent 配置下的任务完成准确性、延迟和令牌消耗。
View on GitHub
Overview
基本能力
产品定位
MCPBench 是一个用于评估 MCP 服务器性能的框架,专注于 Web 搜索和数据库查询任务的评估。
核心功能
- 支持评估 Web 搜索和数据库查询两种类型的 MCP 服务器。
- 兼容本地和远程 MCP 服务器。
- 评估指标包括任务完成准确性、延迟和令牌消耗。
- 提供数据集和实验配置,支持自定义数据集。
适用场景
- 评估不同 MCP 服务器在相同 LLM 和 Agent 配置下的性能。
- 比较不同 MCP 服务器在 Web 搜索和数据库查询任务中的表现。
- 为开发者提供性能优化和数据驱动的决策支持。
工具列表
launch_mcp_as_sse.sh
:启动不支持 SSE 的 MCP 服务器。evaluation_websearch.sh
:评估 MCP 服务器在 Web 搜索任务中的性能。evaluation_db.sh
:评估 MCP 服务器在数据库查询任务中的性能。
常见问题解答
- 如何配置 LLM?
- 通过环境变量
MODEL_KEY
和MODEL_ENDPOINT
配置 LLM 的 API 密钥和端点。 - 如何启动 MCP 服务器?
- 使用
launch_mcp_as_sse.sh
脚本启动不支持 SSE 的 MCP 服务器。 - 对于支持 SSE 的 MCP 服务器,直接使用其 URL。
- 如何评估 MCP 服务器?
- 使用
evaluation_websearch.sh
或evaluation_db.sh
脚本进行评估。
使用教程
使用依赖
- Python 版本 >= 3.11
- Node.js
- jq
安装依赖命令:
conda create -n mcpbench python=3.11 -y
conda activate mcpbench
pip install -r requirements.txt
安装教程
- 克隆项目仓库。
- 创建并激活 Conda 环境。
- 安装依赖项。
调试方式
- 配置 LLM 环境变量:
bash export MODEL_KEY=your_api_key_here export MODEL_ENDPOINT=your_model_endpoint_here
- 启动 MCP 服务器:
bash sh launch_mcp_as_sse.sh YOUR_CONFIG_FILE
- 运行评估脚本:
bash sh evaluation_websearch.sh YOUR_CONFIG_FILE
或bash sh evaluation_db.sh YOUR_CONFIG_FILE