
Patronus MCP Server

2025.03.26
13
PythonLLM 系统优化LLM 模型评估数据集实验开发效率
Patronus MCP Server 是一个为 Patronus SDK 实现的 MCP 服务器,提供标准化的接口,用于运行强大的 LLM 系统优化、评估和实验。
View on GitHub
Overview
基本能力
产品定位
Patronus MCP Server 是一个为 Patronus SDK 实现的 MCP 服务器,提供标准化的接口,用于运行强大的 LLM 系统优化、评估和实验。
核心功能
- 初始化 Patronus 的 API 密钥和项目设置
- 运行可配置评估器的单次评估
- 运行多个评估器的批量评估
- 运行数据集的实验
适用场景
- LLM 系统的优化
- LLM 模型的评估
- 数据集的实验
工具列表
initialize
: 初始化 Patronus 的 API 密钥和项目设置evaluate
: 运行单次评估batch_evaluate
: 运行批量评估run_experiment
: 运行数据集的实验list_evaluator_info
: 获取所有可用评估器及其关联标准的综合视图create_criteria
: 创建新的评估器标准custom_evaluate
: 使用自定义评估器函数评估任务输出
常见问题解答
- 如何运行服务器?
- 通过命令行参数提供 API 密钥
- 通过环境变量提供 API 密钥
- 如何进行交互式测试?
- 使用
tests/test_live.py
脚本进行交互式测试
使用教程
使用依赖
- 克隆仓库:
git clone https://github.com/yourusername/patronus-mcp-server.git
cd patronus-mcp-server
- 创建并激活虚拟环境:
python -m venv .venv
source .venv/bin/activate # On Windows: .venv\Scripts\activate
- 安装主依赖和开发依赖:
uv pip install -e .
uv pip install -e ".[dev]"
安装教程
- 运行服务器:
python src/patronus_mcp/server.py --api-key your_api_key_here
或
export PATRONUS_API_KEY=your_api_key_here
python src/patronus_mcp/server.py
- 运行测试:
pytest tests/
调试方式
- 交互式测试:
python -m tests.test_live src/patronus_mcp/server.py --api-key your_api_key_here
或
export PATRONUS_API_KEY=your_api_key_here
python -m tests.test_live src/patronus_mcp/server.py
或
python -m tests.test_live src/patronus_mcp/server.py
- 测试脚本提供三种测试选项:
- 单次评估测试
- 批量评估测试