Voicevox MCP Server

Voicevox MCP Server

site icon
2025.05.05 0
Python语音合成文本转语音内容生成
Voicevox MCP Server 是一个基于 Model Context Protocol (MCP) 的 Voicevox 客户端服务器,主要用于文本到语音的转换和播放。它提供了与 AI 工具(如 Cursor 和 Cline)集成的能力,通过 JSON-RPC over stdio 接口实现语音合成功能。
View on GitHub

Overview

基本能力

产品定位

Voicevox MCP Server 是一个语音合成服务,通过 MCP 协议与 AI 工具集成,实现文本到语音的转换和播放。

核心功能

  • 文本到语音查询(Audio Query)的转换
  • 语音查询到 WAV 数据的转换
  • 生成语音数据的播放
  • 支持 MCP 协议的 JSON-RPC over stdio 接口

适用场景

  • AI 工具集成(如 Cursor、Cline)
  • 语音合成应用开发
  • 文本朗读功能实现

工具列表

  • uv: 用于运行 Python 模块的依赖管理工具
  • docker: 用于运行 Voicevox Engine 的容器化工具

常见问题解答

  • 英文字符会被逐个朗读,可以通过自定义词典或文本转片假名解决
  • 自定义词典创建接口目前未实现

使用教程

使用依赖

  • Python 3.10 或更高版本
  • Voicevox Engine(本地或远程运行)

安装教程

  1. 克隆仓库 bash git clone https://github.com/yourusername/voicevox-mcp-vc1.git cd voicevox-mcp-vc1
  2. 安装依赖 bash uv sync
  3. 启动 Voicevox Engine bash # CPU 版 Docker docker pull voicevox/voicevox_engine:cpu-latest docker run --rm -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:cpu-latest bash # GPU 版 Docker docker pull voicevox/voicevox_engine:nvidia-latest docker run --rm --gpus all -p '127.0.0.1:50021:50021' voicevox/voicevox_engine:nvidia-latest

调试方式

  • 检查 PulseAudio 状态 bash pactl info
  • 运行测试 bash python -m pytest

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。