mcp-server-datahub

mcp-server-datahub

site icon
2025.04.10 16
Python数据治理元数据管理数据库
mcp-server-datahub 是一个基于 Model Context Protocol 的服务器实现,专为 DataHub 设计。它使 AI 代理能够查询 DataHub,获取关于数据生态系统的元数据和上下文信息。该服务支持 DataHub Core 和 DataHub Cloud,提供搜索、元数据获取、谱系图遍历和 SQL 查询列表等功能。
View on GitHub

Overview

基本能力

产品定位

mcp-server-datahub 是一个连接 AI 代理与 DataHub 元数据的桥梁,旨在提供高效的数据查询和上下文理解能力。

核心功能

  • 搜索功能:支持跨所有实体类型的搜索,并可使用任意过滤器。
  • 元数据获取:能够获取任何实体的详细元数据。
  • 谱系图遍历:支持上下游谱系图的遍历,帮助理解数据来源和去向。
  • SQL 查询列表:列出与数据集关联的 SQL 查询,便于分析和优化。

适用场景

  • 数据分析和治理:帮助团队理解和治理复杂的数据生态系统。
  • AI 辅助开发:为 AI 代理提供数据上下文,辅助开发决策。
  • 数据谱系分析:追踪数据的来源和影响,支持数据质量管理。

工具列表

  • uvx:用于运行 mcp-server-datahub 的命令行工具。
  • datahub init:用于生成认证配置文件 ~/.datahubenv 的工具。

常见问题解答

  • 认证问题:确保设置了正确的 DATAHUB_GMS_URLDATAHUB_GMS_TOKEN 环境变量。
  • 配置文件:可以使用 ~/.datahubenv 文件替代环境变量进行认证。

使用教程

使用依赖

安装 uvx 工具以运行 mcp-server-datahub。

安装教程

  1. 设置环境变量:
export DATAHUB_GMS_URL=https://name.acryl.io/gms
export DATAHUB_GMS_TOKEN=<your-token>
  1. 或者使用 ~/.datahubenv 文件进行认证:
uvx --from acryl-datahub datahub init

调试方式

  1. claude_desktop_config.json.cursor/mcp.json 中配置 mcp-server-datahub。
  2. 确保环境变量或配置文件中的 URL 和 token 正确无误。
  3. 使用 uvx 运行服务并检查日志输出。

许可证

该项目遵循 Apache-2.0 开源许可条款,请参阅 Apache-2.0 了解完整条款。