MCP Server Dataset Builder

MCP Server Dataset Builder

site icon
2025.04.11 0
HTML数据集构建MCP 服务器信息收集开发效率
MCP Server Dataset Builder 是一个用于构建和维护 Model Context Protocol (MCP) 服务器数据集的综合工具。它能够自动从多个来源收集、分类和更新 MCP 服务器的信息。该工具的主要功能包括从 awesome-mcp-servers 仓库提取信息、搜索 GitHub 上的 MCP 服务器仓库、合并和去重数据,并生成包含每个服务器详细信息的每日 CSV 文件。
View on GitHub

Overview

基本能力

产品定位

MCP Server Dataset Builder 是一个用于构建和维护 MCP 服务器数据集的工具,旨在为开发者提供全面、最新的 MCP 服务器信息。

核心功能

  • 双数据源:结合来自精选列表和 GitHub 搜索的数据。
  • 自动分类:根据仓库内容分配类别。
  • 技术栈检测:识别编程语言和框架。
  • Emoji 标记:添加视觉指示符以便快速识别。
  • 每日更新:自动运行以保持数据集的最新状态。
  • 数据持久化:在添加新条目时维护历史数据。

适用场景

  • 开发者需要查找和比较 MCP 服务器时。
  • 需要自动化收集和更新 MCP 服务器信息的场景。
  • 研究和分析 MCP 服务器生态系统的场景。

工具列表

  • extract_mcp_servers.py:从 awesome-mcp-servers 仓库提取 MCP 服务器信息。
  • daily.py:执行 GitHub 搜索并更新数据集。

常见问题解答

  • 如何手动触发更新? 在 GitHub Actions 标签中选择 "Unified MCP Servers Extraction" 并点击 "Run workflow"。
  • 如何自定义搜索参数? 可以通过环境变量 KEYWORDS_ENV、MIN_STARS 和 MIN_FORKS 来自定义。

使用教程

使用依赖

pip install -r requirements.txt

安装教程

  1. 克隆仓库到本地。
  2. 安装依赖:
pip install -r requirements.txt
  1. 运行脚本:
python extract_mcp_servers.py
python daily.py

调试方式

  • 确保已正确设置 GITHUB_TOKEN 环境变量。
  • 检查日志输出以确认脚本运行状态。
  • 可以通过调整环境变量来调试搜索和提取过程。

许可证

该项目遵循 MIT 开源许可条款。