
asr_mcp_server

2025.03.31
0
Python自动语音识别文本到语音内容生成
ASR MCP Server 是一个基于 Model Context Protocol (MCP) 的服务,提供自动语音识别(ASR)功能,使用 whisper 引擎实现。该服务器通过 MCP 工具暴露 TTS(文本到语音)功能,便于将语音合成集成到应用程序中。
View on GitHub
Overview
基本能力
产品定位
ASR MCP Server 是一个专注于自动语音识别(ASR)和文本到语音(TTS)功能的服务,旨在为开发者提供高效的语音处理能力。
核心功能
- 使用 whisper 引擎实现自动语音识别(ASR)。
- 通过 MCP 工具暴露 TTS 功能,支持语音合成。
- 支持批量处理和多语言语音识别。
适用场景
- 视频内容生成:自动生成多语言脚本和语音,适用于 TikTok、YouTube 等平台。
- 虚拟数字发言人:创建多语言口音的 AI 虚拟形象,用于本地化营销。
- 跨语言语音处理:支持多种语言的语音识别和合成,适用于全球化应用。
工具列表
- whisper 引擎:用于实现高质量的自动语音识别。
- MCP 工具:用于暴露 TTS 功能,便于集成到应用程序中。
常见问题解答
- 如何安装 whisper 引擎? 需要安装 openai whisper,具体安装步骤可参考官方文档。
- 如何配置 MCP 服务器? 提供 JSON 配置文件,指定命令和参数即可。
使用教程
使用依赖
- Python 3.10 或更高版本
- uv 包管理器
- openai whisper
安装教程
- 确保已安装 Python 3.10 或更高版本。
- 安装 uv 包管理器:
bash pip install uv
- 安装 openai whisper:
bash pip install openai-whisper
- 下载并配置 ASR MCP Server:
json { "mcpServers": { "asr_mcp_server": { "command": "/YOUR_CONDA_PATH/bin/uv", "args": [ "--directory", "/YOUR_PATH/asr_mcp_server", "run", "asr_server.py" ] } } }
调试方式
- 启动 ASR MCP Server:
bash /YOUR_CONDA_PATH/bin/uv --directory /YOUR_PATH/asr_mcp_server run asr_server.py
- 检查日志文件,确保服务正常运行。
- 使用 MCP 工具测试 TTS 功能,确保语音合成正常工作。
许可证
None