asr_mcp_server

asr_mcp_server

2025.03.31 0

Python自动语音识别文本到语音内容生成

ASR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务，提供自动语音识别（ASR）功能，使用 whisper 引擎实现。该服务器通过 MCP 工具暴露 TTS（文本到语音）功能，便于将语音合成集成到应用程序中。

View on GitHub

Overview

基本能力

产品定位

ASR MCP Server 是一个专注于自动语音识别（ASR）和文本到语音（TTS）功能的服务，旨在为开发者提供高效的语音处理能力。

核心功能

使用 whisper 引擎实现自动语音识别（ASR）。
通过 MCP 工具暴露 TTS 功能，支持语音合成。
支持批量处理和多语言语音识别。

适用场景

视频内容生成：自动生成多语言脚本和语音，适用于 TikTok、YouTube 等平台。
虚拟数字发言人：创建多语言口音的 AI 虚拟形象，用于本地化营销。
跨语言语音处理：支持多种语言的语音识别和合成，适用于全球化应用。

工具列表

whisper 引擎：用于实现高质量的自动语音识别。
MCP 工具：用于暴露 TTS 功能，便于集成到应用程序中。

常见问题解答

如何安装 whisper 引擎？需要安装 openai whisper，具体安装步骤可参考官方文档。
如何配置 MCP 服务器？提供 JSON 配置文件，指定命令和参数即可。

使用教程

使用依赖

Python 3.10 或更高版本
uv 包管理器
openai whisper

安装教程

确保已安装 Python 3.10 或更高版本。
安装 uv 包管理器： bash pip install uv
安装 openai whisper： bash pip install openai-whisper
下载并配置 ASR MCP Server： json { "mcpServers": { "asr_mcp_server": { "command": "/YOUR_CONDA_PATH/bin/uv", "args": [ "--directory", "/YOUR_PATH/asr_mcp_server", "run", "asr_server.py" ] } } }

调试方式

启动 ASR MCP Server： bash /YOUR_CONDA_PATH/bin/uv --directory /YOUR_PATH/asr_mcp_server run asr_server.py
检查日志文件，确保服务正常运行。
使用 MCP 工具测试 TTS 功能，确保语音合成正常工作。

许可证

None