asr_mcp_server

asr_mcp_server

site icon
2025.03.31 0
Python自动语音识别文本到语音内容生成
ASR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,提供自动语音识别(ASR)功能,使用 whisper 引擎实现。该服务器通过 MCP 工具暴露 TTS(文本到语音)功能,便于将语音合成集成到应用程序中。
View on GitHub

Overview

基本能力

产品定位

ASR MCP Server 是一个专注于自动语音识别(ASR)和文本到语音(TTS)功能的服务,旨在为开发者提供高效的语音处理能力。

核心功能

  • 使用 whisper 引擎实现自动语音识别(ASR)。
  • 通过 MCP 工具暴露 TTS 功能,支持语音合成。
  • 支持批量处理和多语言语音识别。

适用场景

  • 视频内容生成:自动生成多语言脚本和语音,适用于 TikTok、YouTube 等平台。
  • 虚拟数字发言人:创建多语言口音的 AI 虚拟形象,用于本地化营销。
  • 跨语言语音处理:支持多种语言的语音识别和合成,适用于全球化应用。

工具列表

  • whisper 引擎:用于实现高质量的自动语音识别。
  • MCP 工具:用于暴露 TTS 功能,便于集成到应用程序中。

常见问题解答

  • 如何安装 whisper 引擎? 需要安装 openai whisper,具体安装步骤可参考官方文档。
  • 如何配置 MCP 服务器? 提供 JSON 配置文件,指定命令和参数即可。

使用教程

使用依赖

  • Python 3.10 或更高版本
  • uv 包管理器
  • openai whisper

安装教程

  1. 确保已安装 Python 3.10 或更高版本。
  2. 安装 uv 包管理器: bash pip install uv
  3. 安装 openai whisper: bash pip install openai-whisper
  4. 下载并配置 ASR MCP Server: json { "mcpServers": { "asr_mcp_server": { "command": "/YOUR_CONDA_PATH/bin/uv", "args": [ "--directory", "/YOUR_PATH/asr_mcp_server", "run", "asr_server.py" ] } } }

调试方式

  1. 启动 ASR MCP Server: bash /YOUR_CONDA_PATH/bin/uv --directory /YOUR_PATH/asr_mcp_server run asr_server.py
  2. 检查日志文件,确保服务正常运行。
  3. 使用 MCP 工具测试 TTS 功能,确保语音合成正常工作。

许可证

None