Whisper Speech Recognition MCP Server

Whisper Speech Recognition MCP Server

2025.03.22 2

Python语音识别音频转录内容生成

Fast-Whisper-MCP-Server 是一个基于 Faster Whisper 的高性能语音识别 MCP 服务器，提供高效的音频转录能力。它支持多种模型大小（从 tiny 到 large-v3），输出格式包括 VTT 字幕、SRT 和 JSON，并支持批量处理音频文件以提高转录速度。该服务器还具备自动 CUDA 加速（如果可用）、模型实例缓存和动态批量大小调整等功能。

View on GitHub

Overview

基本能力

产品定位

Fast-Whisper-MCP-Server 是一个高性能的语音识别服务器，旨在提供高效的音频转录服务。

核心功能

集成 Faster Whisper 进行高效的语音识别
批量处理加速以提高转录速度
自动 CUDA 加速（如果可用）
支持多种模型大小（tiny 到 large-v3）
输出格式包括 VTT 字幕、SRT 和 JSON
支持批量转录文件夹中的音频文件
模型实例缓存以避免重复加载
基于 GPU 内存的动态批量大小调整

适用场景

批量音频文件转录
实时语音识别
字幕生成
语音转文字服务

工具列表

get_model_info - 获取可用 Whisper 模型的信息
transcribe - 转录单个音频文件
batch_transcribe - 批量转录文件夹中的音频文件

常见问题解答

音频文件存在性检查
模型加载失败处理
转录过程异常捕获
GPU 内存管理
批量处理参数自适应调整

使用教程

使用依赖

Python 3.10+
faster-whisper>=0.9.0
torch==2.6.0+cu126
torchaudio==2.6.0+cu126
mcp[cli]>=1.2.0

安装教程

克隆或下载此仓库
创建并激活虚拟环境（推荐）
安装依赖：

pip install -r requirements.txt

PyTorch 安装指南

根据您的 CUDA 版本安装适当版本的 PyTorch：

CUDA 12.6: bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
CUDA 12.1: bash pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121
CPU 版本: bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu

您可以使用 nvcc --version 或 nvidia-smi 检查您的 CUDA 版本。

调试方式

使用 MCP Inspector 进行快速测试：

mcp dev whisper_server.py

使用 Claude Desktop 进行集成测试
使用命令行直接调用（需要 mcp[cli]）：

mcp run whisper_server.py

许可证

该项目遵循 MIT 开源许可条款。