MCP Server Whisper

MCP Server Whisper

2025.03.24 12

Python音频处理转录服务文本到语音内容生成

MCP Server Whisper 是一个基于 Model Context Protocol (MCP) 的服务器，专门用于高级音频转录和处理，利用 OpenAI 的 Whisper 和 GPT-4o 模型。它提供了标准化的音频文件处理能力，支持多种音频格式的转录、格式转换、压缩以及文本到语音的生成。

View on GitHub

Overview

基本能力

产品定位

MCP Server Whisper 是一个专注于音频处理和转录的服务，旨在通过标准化的协议（MCP）提供高效的音频文件管理和处理能力。

核心功能

高级文件搜索：支持正则表达式匹配、文件元数据过滤和排序功能。
并行批处理：支持多个音频文件的并行处理。
格式转换：支持多种音频格式之间的转换（如 mp3 或 wav）。
自动压缩：自动压缩超过大小限制的音频文件。
多模型转录：支持所有 OpenAI 音频模型（如 whisper-1, gpt-4o-transcribe）。
交互式音频聊天：支持与 GPT-4o 音频模型的交互式聊天。
增强转录：支持专业模板（如详细、故事化、专业和分析性转录）。
文本到语音生成：支持多种语音选项和速度调整。
高性能缓存：支持重复操作的高性能缓存。

适用场景

音频转录：将音频文件转换为文本，支持多种增强模板。
音频文件管理：搜索、过滤和排序音频文件。
批量处理：并行处理多个音频文件。
文本到语音：生成高质量的语音音频。

工具列表

Audio File Management
list_audio_files：列出音频文件，支持多种过滤和排序选项。
get_latest_audio：获取最近修改的音频文件。
Audio Processing
convert_audio：转换音频文件格式。
compress_audio：压缩音频文件。
Transcription
transcribe_audio：使用 OpenAI 模型进行转录。
chat_with_audio：与音频内容进行交互式聊天。
transcribe_with_enhancement：使用增强模板进行转录。
Text-to-Speech
create_claudecast：生成文本到语音的音频文件。

常见问题解答

支持的音频格式：
Transcribe：flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
Chat：mp3, wav
文件大小限制：超过 25MB 的文件会自动压缩。

使用教程

使用依赖

# Clone the repository
git clone https://github.com/arcaputo3/mcp-server-whisper.git
cd mcp-server-whisper

# Using uv 
uv sync

# Set up pre-commit hooks
uv run pre-commit install

安装教程

创建 .env 文件并设置以下变量：

OPENAI_API_KEY=your_openai_api_key
AUDIO_FILES_PATH=/path/to/your/audio/files

启动服务器：

mcp dev src/mcp_server_whisper/server.py

或安装服务器：

mcp install src/mcp_server_whisper/server.py [--env-file .env]

调试方式

# Run tests
uv run pytest

# Run with coverage
uv run pytest --cov=src

# Format code
uv run ruff format src

# Lint code
uv run ruff check src

# Run type checking (strict mode)
uv run mypy --strict src

# Run the pre-commit hooks
pre-commit run --all-files

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。