YouTube Transcript API

YouTube Transcript API

site icon
2025.03.21 0
Python视频内容转录多语言字幕生成内容生成
YouTube Transcript API 是一个Python服务,提供API来获取和转录YouTube视频内容。它支持REST API(Flask)和MCP服务器实现。核心功能包括获取多语言字幕、自动检测可用字幕、音频转录、自动语言检测等。适用于需要视频内容转录和分析的场景。
View on GitHub

Overview

基本能力

产品定位

YouTube Transcript API 是一个用于获取和转录YouTube视频内容的服务,支持多语言字幕和音频转录。

核心功能

  • 获取YouTube视频的多语言字幕(支持英语和越南语)
  • 自动检测并使用可用的字幕
  • 当字幕不可用时,使用Whisper进行音频转录
  • 支持REST API和MCP服务器接口
  • 自动语言检测
  • 临时文件清理
  • 长时间运行操作的进度报告

适用场景

  • 视频内容分析
  • 多语言字幕生成
  • 视频内容转录

工具列表

  • get_transcript(video_id, language) - 获取视频字幕
  • extract_transcript(video_id, language) - 从音频中提取字幕
  • search_youtube_video(query) - 搜索YouTube视频

常见问题解答

  • 支持的语言包括英语(en)、越南语(vi)以及其他语言的自动检测。
  • 依赖包括youtube-transcript-api、pytube、whisper、torch、langdetect、flask(用于REST API)和mcp(用于MCP服务器)。

使用教程

使用依赖

pip install -r requirements.txt

安装教程

  1. 安装依赖:
pip install -r requirements.txt
  1. 启动Flask服务器(REST API):
python apps/flask_server.py
  1. 启动MCP服务器:
python apps/mcp_server.py

调试方式

  • 使用Flask服务器的健康检查端点:
curl http://localhost:5000/health
  • 使用MCP服务器的工具进行调试,例如:
python -c "from mcp import get_transcript; print(get_transcript('video_id', 'en'))"

许可证

该项目遵循 MIT 开源许可条款。