Voicevox MCP Server

Voicevox MCP Server

2025.05.05 0

Python语音合成文本转语音内容生成

Voicevox MCP Server 是一个基于 Model Context Protocol (MCP) 的 Voicevox 客户端服务器，主要用于文本到语音的转换和播放。它提供了与 AI 工具（如 Cursor 和 Cline）集成的能力，通过 JSON-RPC over stdio 接口实现语音合成功能。

View on GitHub

Overview

基本能力

产品定位

Voicevox MCP Server 是一个语音合成服务，通过 MCP 协议与 AI 工具集成，实现文本到语音的转换和播放。

核心功能

文本到语音查询（Audio Query）的转换
语音查询到 WAV 数据的转换
生成语音数据的播放
支持 MCP 协议的 JSON-RPC over stdio 接口

适用场景

AI 工具集成（如 Cursor、Cline）
语音合成应用开发
文本朗读功能实现

工具列表

uv: 用于运行 Python 模块的依赖管理工具
docker: 用于运行 Voicevox Engine 的容器化工具

常见问题解答

英文字符会被逐个朗读，可以通过自定义词典或文本转片假名解决
自定义词典创建接口目前未实现

使用教程

使用依赖

Python 3.10 或更高版本
Voicevox Engine（本地或远程运行）

安装教程

克隆仓库 bash git clone https://github.com/yourusername/voicevox-mcp-vc1.git cd voicevox-mcp-vc1
安装依赖 bash uv sync
启动 Voicevox Engine bash # CPU 版 Docker docker pull voicevox/voicevox_engine:cpu-latest docker run --rm -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:cpu-latest bash # GPU 版 Docker docker pull voicevox/voicevox_engine:nvidia-latest docker run --rm --gpus all -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:nvidia-latest

调试方式

检查 PulseAudio 状态 bash pactl info
运行测试 bash python -m pytest

许可证

该项目遵循 MIT 开源许可条款，请参阅 MIT 了解完整条款。