Whisper Speech Recognition MCP Server

Whisper Speech Recognition MCP Server

site icon
2025.03.22 2
Python语音识别音频转录内容生成
Fast-Whisper-MCP-Server 是一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。它支持多种模型大小(从 tiny 到 large-v3),输出格式包括 VTT 字幕、SRT 和 JSON,并支持批量处理音频文件以提高转录速度。该服务器还具备自动 CUDA 加速(如果可用)、模型实例缓存和动态批量大小调整等功能。
View on GitHub

Overview

基本能力

产品定位

Fast-Whisper-MCP-Server 是一个高性能的语音识别服务器,旨在提供高效的音频转录服务。

核心功能

  • 集成 Faster Whisper 进行高效的语音识别
  • 批量处理加速以提高转录速度
  • 自动 CUDA 加速(如果可用)
  • 支持多种模型大小(tiny 到 large-v3)
  • 输出格式包括 VTT 字幕、SRT 和 JSON
  • 支持批量转录文件夹中的音频文件
  • 模型实例缓存以避免重复加载
  • 基于 GPU 内存的动态批量大小调整

适用场景

  • 批量音频文件转录
  • 实时语音识别
  • 字幕生成
  • 语音转文字服务

工具列表

  1. get_model_info - 获取可用 Whisper 模型的信息
  2. transcribe - 转录单个音频文件
  3. batch_transcribe - 批量转录文件夹中的音频文件

常见问题解答

  • 音频文件存在性检查
  • 模型加载失败处理
  • 转录过程异常捕获
  • GPU 内存管理
  • 批量处理参数自适应调整

使用教程

使用依赖

  • Python 3.10+
  • faster-whisper>=0.9.0
  • torch==2.6.0+cu126
  • torchaudio==2.6.0+cu126
  • mcp[cli]>=1.2.0

安装教程

  1. 克隆或下载此仓库
  2. 创建并激活虚拟环境(推荐)
  3. 安装依赖:
pip install -r requirements.txt

PyTorch 安装指南

根据您的 CUDA 版本安装适当版本的 PyTorch:

  • CUDA 12.6: bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

  • CUDA 12.1: bash pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

  • CPU 版本: bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu

您可以使用 nvcc --versionnvidia-smi 检查您的 CUDA 版本。

调试方式

  1. 使用 MCP Inspector 进行快速测试:
mcp dev whisper_server.py
  1. 使用 Claude Desktop 进行集成测试

  2. 使用命令行直接调用(需要 mcp[cli]):

mcp run whisper_server.py

许可证

该项目遵循 MIT 开源许可条款。