MCP Server Whisper

MCP Server Whisper

site icon
2025.03.24 12
Python音频处理转录服务文本到语音内容生成
MCP Server Whisper 是一个基于 Model Context Protocol (MCP) 的服务器,专门用于高级音频转录和处理,利用 OpenAI 的 Whisper 和 GPT-4o 模型。它提供了标准化的音频文件处理能力,支持多种音频格式的转录、格式转换、压缩以及文本到语音的生成。
View on GitHub

Overview

基本能力

产品定位

MCP Server Whisper 是一个专注于音频处理和转录的服务,旨在通过标准化的协议(MCP)提供高效的音频文件管理和处理能力。

核心功能

  • 高级文件搜索:支持正则表达式匹配、文件元数据过滤和排序功能。
  • 并行批处理:支持多个音频文件的并行处理。
  • 格式转换:支持多种音频格式之间的转换(如 mp3 或 wav)。
  • 自动压缩:自动压缩超过大小限制的音频文件。
  • 多模型转录:支持所有 OpenAI 音频模型(如 whisper-1, gpt-4o-transcribe)。
  • 交互式音频聊天:支持与 GPT-4o 音频模型的交互式聊天。
  • 增强转录:支持专业模板(如详细、故事化、专业和分析性转录)。
  • 文本到语音生成:支持多种语音选项和速度调整。
  • 高性能缓存:支持重复操作的高性能缓存。

适用场景

  • 音频转录:将音频文件转换为文本,支持多种增强模板。
  • 音频文件管理:搜索、过滤和排序音频文件。
  • 批量处理:并行处理多个音频文件。
  • 文本到语音:生成高质量的语音音频。

工具列表

  • Audio File Management
  • list_audio_files:列出音频文件,支持多种过滤和排序选项。
  • get_latest_audio:获取最近修改的音频文件。
  • Audio Processing
  • convert_audio:转换音频文件格式。
  • compress_audio:压缩音频文件。
  • Transcription
  • transcribe_audio:使用 OpenAI 模型进行转录。
  • chat_with_audio:与音频内容进行交互式聊天。
  • transcribe_with_enhancement:使用增强模板进行转录。
  • Text-to-Speech
  • create_claudecast:生成文本到语音的音频文件。

常见问题解答

  • 支持的音频格式
  • Transcribe:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
  • Chat:mp3, wav
  • 文件大小限制:超过 25MB 的文件会自动压缩。

使用教程

使用依赖

# Clone the repository
git clone https://github.com/arcaputo3/mcp-server-whisper.git
cd mcp-server-whisper

# Using uv 
uv sync

# Set up pre-commit hooks
uv run pre-commit install

安装教程

  1. 创建 .env 文件并设置以下变量:
OPENAI_API_KEY=your_openai_api_key
AUDIO_FILES_PATH=/path/to/your/audio/files
  1. 启动服务器:
mcp dev src/mcp_server_whisper/server.py

或安装服务器:

mcp install src/mcp_server_whisper/server.py [--env-file .env]

调试方式

# Run tests
uv run pytest

# Run with coverage
uv run pytest --cov=src

# Format code
uv run ruff format src

# Lint code
uv run ruff check src

# Run type checking (strict mode)
uv run mypy --strict src

# Run the pre-commit hooks
pre-commit run --all-files

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。