
mcp-server-datahub

2025.04.10
16
Python数据治理元数据管理数据库
mcp-server-datahub 是一个基于 Model Context Protocol 的服务器实现,专为 DataHub 设计。它使 AI 代理能够查询 DataHub,获取关于数据生态系统的元数据和上下文信息。该服务支持 DataHub Core 和 DataHub Cloud,提供搜索、元数据获取、谱系图遍历和 SQL 查询列表等功能。
View on GitHub
Overview
基本能力
产品定位
mcp-server-datahub 是一个连接 AI 代理与 DataHub 元数据的桥梁,旨在提供高效的数据查询和上下文理解能力。
核心功能
- 搜索功能:支持跨所有实体类型的搜索,并可使用任意过滤器。
- 元数据获取:能够获取任何实体的详细元数据。
- 谱系图遍历:支持上下游谱系图的遍历,帮助理解数据来源和去向。
- SQL 查询列表:列出与数据集关联的 SQL 查询,便于分析和优化。
适用场景
- 数据分析和治理:帮助团队理解和治理复杂的数据生态系统。
- AI 辅助开发:为 AI 代理提供数据上下文,辅助开发决策。
- 数据谱系分析:追踪数据的来源和影响,支持数据质量管理。
工具列表
- uvx:用于运行 mcp-server-datahub 的命令行工具。
- datahub init:用于生成认证配置文件
~/.datahubenv
的工具。
常见问题解答
- 认证问题:确保设置了正确的
DATAHUB_GMS_URL
和DATAHUB_GMS_TOKEN
环境变量。 - 配置文件:可以使用
~/.datahubenv
文件替代环境变量进行认证。
使用教程
使用依赖
安装 uvx
工具以运行 mcp-server-datahub。
安装教程
- 设置环境变量:
export DATAHUB_GMS_URL=https://name.acryl.io/gms
export DATAHUB_GMS_TOKEN=<your-token>
- 或者使用
~/.datahubenv
文件进行认证:
uvx --from acryl-datahub datahub init
调试方式
- 在
claude_desktop_config.json
或.cursor/mcp.json
中配置 mcp-server-datahub。 - 确保环境变量或配置文件中的 URL 和 token 正确无误。
- 使用
uvx
运行服务并检查日志输出。