Kokoro Text to Speech (TTS) MCP Server

Kokoro Text to Speech (TTS) MCP Server

2025.03.24 4

Python文本转语音语音合成文件管理内容生成

Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务，能够生成.mp3文件，并支持上传到S3存储。该服务基于Hugging Face的Kokoro-TTS模型，提供多种语音、语速和语言选项，适用于需要语音合成的各种场景。

View on GitHub

Overview

基本能力

产品定位

Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务，专注于将文本转换为高质量的语音文件，并支持本地存储和云端（S3）存储。

核心功能

文本转语音：将输入的文本转换为语音文件（.mp3格式）。
语音定制：支持选择不同的语音、语速和语言。
文件管理：生成的语音文件可以存储在本地或上传到S3存储。
自动清理：支持设置文件保留天数，自动清理旧文件。
S3集成：支持将生成的语音文件上传到AWS S3存储。

适用场景

语音助手开发：为语音助手提供语音合成能力。
内容生成：为视频、播客等内容生成语音旁白。
教育工具：为教育应用提供语音朗读功能。
自动化脚本：在自动化流程中生成语音提示或通知。

工具列表

mcp-tts.py：主服务脚本，负责启动TTS服务。
mcp_client.py：客户端脚本，用于向服务发送TTS请求。

常见问题解答

如何配置S3上传？：在.env文件中设置AWS相关环境变量。
如何更改默认语音？：通过设置TTS_VOICE环境变量或客户端参数。
如何禁用S3上传？：设置S3_ENABLED=false或使用客户端的--no-s3选项。

使用教程

使用依赖

安装ffmpeg（用于.wav到.mp3的转换）： bash brew install ffmpeg # Mac
下载Kokoro Onnx Weights：
kokoro-v1.0.onnx
voices-v1.0.bin

安装教程

克隆仓库： bash git clone <repo_url>
配置环境变量：复制env.example到.env并修改相关配置。
启动服务： bash uv run mcp-tts.py

调试方式

测试客户端： bash python mcp_client.py --text "Hello, world!"
检查日志：确保服务启动时无错误日志。
验证文件生成：检查本地MP3_FOLDER或S3存储是否生成了语音文件。

许可证

该项目遵循 Apache-2.0 开源许可条款，请参阅 Apache-2.0 了解完整条款。