
MCP Server Whisper

2025.03.24
12
Python音频处理转录服务文本到语音内容生成
MCP Server Whisper 是一个基于 Model Context Protocol (MCP) 的服务器,专门用于高级音频转录和处理,利用 OpenAI 的 Whisper 和 GPT-4o 模型。它提供了标准化的音频文件处理能力,支持多种音频格式的转录、格式转换、压缩以及文本到语音的生成。
View on GitHub
Overview
基本能力
产品定位
MCP Server Whisper 是一个专注于音频处理和转录的服务,旨在通过标准化的协议(MCP)提供高效的音频文件管理和处理能力。
核心功能
- 高级文件搜索:支持正则表达式匹配、文件元数据过滤和排序功能。
- 并行批处理:支持多个音频文件的并行处理。
- 格式转换:支持多种音频格式之间的转换(如 mp3 或 wav)。
- 自动压缩:自动压缩超过大小限制的音频文件。
- 多模型转录:支持所有 OpenAI 音频模型(如 whisper-1, gpt-4o-transcribe)。
- 交互式音频聊天:支持与 GPT-4o 音频模型的交互式聊天。
- 增强转录:支持专业模板(如详细、故事化、专业和分析性转录)。
- 文本到语音生成:支持多种语音选项和速度调整。
- 高性能缓存:支持重复操作的高性能缓存。
适用场景
- 音频转录:将音频文件转换为文本,支持多种增强模板。
- 音频文件管理:搜索、过滤和排序音频文件。
- 批量处理:并行处理多个音频文件。
- 文本到语音:生成高质量的语音音频。
工具列表
- Audio File Management
list_audio_files
:列出音频文件,支持多种过滤和排序选项。get_latest_audio
:获取最近修改的音频文件。- Audio Processing
convert_audio
:转换音频文件格式。compress_audio
:压缩音频文件。- Transcription
transcribe_audio
:使用 OpenAI 模型进行转录。chat_with_audio
:与音频内容进行交互式聊天。transcribe_with_enhancement
:使用增强模板进行转录。- Text-to-Speech
create_claudecast
:生成文本到语音的音频文件。
常见问题解答
- 支持的音频格式:
- Transcribe:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
- Chat:mp3, wav
- 文件大小限制:超过 25MB 的文件会自动压缩。
使用教程
使用依赖
# Clone the repository
git clone https://github.com/arcaputo3/mcp-server-whisper.git
cd mcp-server-whisper
# Using uv
uv sync
# Set up pre-commit hooks
uv run pre-commit install
安装教程
- 创建
.env
文件并设置以下变量:
OPENAI_API_KEY=your_openai_api_key
AUDIO_FILES_PATH=/path/to/your/audio/files
- 启动服务器:
mcp dev src/mcp_server_whisper/server.py
或安装服务器:
mcp install src/mcp_server_whisper/server.py [--env-file .env]
调试方式
# Run tests
uv run pytest
# Run with coverage
uv run pytest --cov=src
# Format code
uv run ruff format src
# Lint code
uv run ruff check src
# Run type checking (strict mode)
uv run mypy --strict src
# Run the pre-commit hooks
pre-commit run --all-files