YouTube Transcript Extractor

YouTube Transcript Extractor

site icon
2025.01.02 2
Python字幕提取视频内容处理内容生成
mcp-youtube-transcripts 是一个命令行工具,用于从YouTube视频中提取字幕。它支持多种URL格式,并可以输出带有可选时间戳的字幕。该工具基于Python构建,使用脚本依赖管理。
View on GitHub

Overview

基本能力

产品定位

mcp-youtube-transcripts 是一个专注于从YouTube视频中提取字幕的工具,适用于需要获取视频字幕内容的用户。

核心功能

  • 从YouTube视频中提取字幕,支持URL或视频ID
  • 支持多种YouTube URL格式:
  • 标准观看URL (youtube.com/watch?v=...)
  • 缩短URL (youtu.be/...)
  • 嵌入URL (youtube.com/embed/...)
  • 可配置是否包含时间戳(HH:MM:SS格式)
  • 灵活的输出来选项(文件或标准输出)
  • 全面的错误处理,覆盖常见场景

适用场景

  • 视频内容分析
  • 字幕翻译
  • 视频内容存档
  • 学术研究

工具列表

  • youtube_transcript.py: 主脚本,用于提取字幕

使用教程

使用依赖

  • Python 3.12或更高版本
  • 自动安装的依赖项:
  • click: 用于命令行界面
  • youtube_transcript_api: 用于获取字幕

安装教程

git clone https://github.com/tlofreso/mcp-youtube-transcripts.git
cd mcp-youtube-transcripts

调试方式

基本命令格式:

python youtube_transcript.py <youtube-url> [options]

选项

  • -o, --output: 指定输出文件路径(默认:标准输出)
  • --timestamps/--no-timestamps: 包含/排除时间戳(默认:包含)

示例

  1. 提取字幕到控制台(带时间戳):
python youtube_transcript.py "https://www.youtube.com/watch?v=dQw4w9WgXcQ"
  1. 保存字幕到文件(不带时间戳):
python youtube_transcript.py "https://youtu.be/dQw4w9WgXcQ" -o transcript.txt --no-timestamps
  1. 处理嵌入URL:
python youtube_transcript.py "https://www.youtube.com/embed/dQw4w9WgXcQ"

常见问题解答

  • 字幕被禁用:工具会提供清晰的错误消息
  • 无效或格式错误的YouTube URL:工具会检测并报告
  • 网络连接问题:工具会提示网络问题
  • 文件权限问题:工具会提示无法写入文件
  • 缺失或无效的视频ID:工具会提示无效的视频ID

许可证

该项目遵循 MIT 开源许可条款。