
Whisper Speech Recognition MCP Server

2025.03.22
2
Python语音识别音频转录内容生成
Fast-Whisper-MCP-Server 是一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。它支持多种模型大小(从 tiny 到 large-v3),输出格式包括 VTT 字幕、SRT 和 JSON,并支持批量处理音频文件以提高转录速度。该服务器还具备自动 CUDA 加速(如果可用)、模型实例缓存和动态批量大小调整等功能。
View on GitHub
Overview
基本能力
产品定位
Fast-Whisper-MCP-Server 是一个高性能的语音识别服务器,旨在提供高效的音频转录服务。
核心功能
- 集成 Faster Whisper 进行高效的语音识别
- 批量处理加速以提高转录速度
- 自动 CUDA 加速(如果可用)
- 支持多种模型大小(tiny 到 large-v3)
- 输出格式包括 VTT 字幕、SRT 和 JSON
- 支持批量转录文件夹中的音频文件
- 模型实例缓存以避免重复加载
- 基于 GPU 内存的动态批量大小调整
适用场景
- 批量音频文件转录
- 实时语音识别
- 字幕生成
- 语音转文字服务
工具列表
- get_model_info - 获取可用 Whisper 模型的信息
- transcribe - 转录单个音频文件
- batch_transcribe - 批量转录文件夹中的音频文件
常见问题解答
- 音频文件存在性检查
- 模型加载失败处理
- 转录过程异常捕获
- GPU 内存管理
- 批量处理参数自适应调整
使用教程
使用依赖
- Python 3.10+
- faster-whisper>=0.9.0
- torch==2.6.0+cu126
- torchaudio==2.6.0+cu126
- mcp[cli]>=1.2.0
安装教程
- 克隆或下载此仓库
- 创建并激活虚拟环境(推荐)
- 安装依赖:
pip install -r requirements.txt
PyTorch 安装指南
根据您的 CUDA 版本安装适当版本的 PyTorch:
-
CUDA 12.6:
bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
-
CUDA 12.1:
bash pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121
-
CPU 版本:
bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu
您可以使用 nvcc --version
或 nvidia-smi
检查您的 CUDA 版本。
调试方式
- 使用 MCP Inspector 进行快速测试:
mcp dev whisper_server.py
-
使用 Claude Desktop 进行集成测试
-
使用命令行直接调用(需要 mcp[cli]):
mcp run whisper_server.py