
Voicevox MCP Server

2025.05.05
0
Python语音合成文本转语音内容生成
Voicevox MCP Server 是一个基于 Model Context Protocol (MCP) 的 Voicevox 客户端服务器,主要用于文本到语音的转换和播放。它提供了与 AI 工具(如 Cursor 和 Cline)集成的能力,通过 JSON-RPC over stdio 接口实现语音合成功能。
View on GitHub
Overview
基本能力
产品定位
Voicevox MCP Server 是一个语音合成服务,通过 MCP 协议与 AI 工具集成,实现文本到语音的转换和播放。
核心功能
- 文本到语音查询(Audio Query)的转换
- 语音查询到 WAV 数据的转换
- 生成语音数据的播放
- 支持 MCP 协议的 JSON-RPC over stdio 接口
适用场景
- AI 工具集成(如 Cursor、Cline)
- 语音合成应用开发
- 文本朗读功能实现
工具列表
uv
: 用于运行 Python 模块的依赖管理工具docker
: 用于运行 Voicevox Engine 的容器化工具
常见问题解答
- 英文字符会被逐个朗读,可以通过自定义词典或文本转片假名解决
- 自定义词典创建接口目前未实现
使用教程
使用依赖
- Python 3.10 或更高版本
- Voicevox Engine(本地或远程运行)
安装教程
- 克隆仓库
bash git clone https://github.com/yourusername/voicevox-mcp-vc1.git cd voicevox-mcp-vc1
- 安装依赖
bash uv sync
- 启动 Voicevox Engine
bash # CPU 版 Docker docker pull voicevox/voicevox_engine:cpu-latest docker run --rm -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:cpu-latest
bash # GPU 版 Docker docker pull voicevox/voicevox_engine:nvidia-latest docker run --rm --gpus all -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:nvidia-latest
调试方式
- 检查 PulseAudio 状态
bash pactl info
- 运行测试
bash python -m pytest