
MCP Server Dataset Builder

2025.04.11
0
HTML数据集构建MCP 服务器信息收集开发效率
MCP Server Dataset Builder 是一个用于构建和维护 Model Context Protocol (MCP) 服务器数据集的综合工具。它能够自动从多个来源收集、分类和更新 MCP 服务器的信息。该工具的主要功能包括从 awesome-mcp-servers 仓库提取信息、搜索 GitHub 上的 MCP 服务器仓库、合并和去重数据,并生成包含每个服务器详细信息的每日 CSV 文件。
View on GitHub
Overview
基本能力
产品定位
MCP Server Dataset Builder 是一个用于构建和维护 MCP 服务器数据集的工具,旨在为开发者提供全面、最新的 MCP 服务器信息。
核心功能
- 双数据源:结合来自精选列表和 GitHub 搜索的数据。
- 自动分类:根据仓库内容分配类别。
- 技术栈检测:识别编程语言和框架。
- Emoji 标记:添加视觉指示符以便快速识别。
- 每日更新:自动运行以保持数据集的最新状态。
- 数据持久化:在添加新条目时维护历史数据。
适用场景
- 开发者需要查找和比较 MCP 服务器时。
- 需要自动化收集和更新 MCP 服务器信息的场景。
- 研究和分析 MCP 服务器生态系统的场景。
工具列表
- extract_mcp_servers.py:从 awesome-mcp-servers 仓库提取 MCP 服务器信息。
- daily.py:执行 GitHub 搜索并更新数据集。
常见问题解答
- 如何手动触发更新? 在 GitHub Actions 标签中选择 "Unified MCP Servers Extraction" 并点击 "Run workflow"。
- 如何自定义搜索参数? 可以通过环境变量 KEYWORDS_ENV、MIN_STARS 和 MIN_FORKS 来自定义。
使用教程
使用依赖
pip install -r requirements.txt
安装教程
- 克隆仓库到本地。
- 安装依赖:
pip install -r requirements.txt
- 运行脚本:
python extract_mcp_servers.py
python daily.py
调试方式
- 确保已正确设置 GITHUB_TOKEN 环境变量。
- 检查日志输出以确认脚本运行状态。
- 可以通过调整环境变量来调试搜索和提取过程。