
Kokoro Text to Speech (TTS) MCP Server

2025.03.24
4
Python文本转语音语音合成文件管理内容生成
Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务,能够生成.mp3文件,并支持上传到S3存储。该服务基于Hugging Face的Kokoro-TTS模型,提供多种语音、语速和语言选项,适用于需要语音合成的各种场景。
View on GitHub
Overview
基本能力
产品定位
Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务,专注于将文本转换为高质量的语音文件,并支持本地存储和云端(S3)存储。
核心功能
- 文本转语音:将输入的文本转换为语音文件(.mp3格式)。
- 语音定制:支持选择不同的语音、语速和语言。
- 文件管理:生成的语音文件可以存储在本地或上传到S3存储。
- 自动清理:支持设置文件保留天数,自动清理旧文件。
- S3集成:支持将生成的语音文件上传到AWS S3存储。
适用场景
- 语音助手开发:为语音助手提供语音合成能力。
- 内容生成:为视频、播客等内容生成语音旁白。
- 教育工具:为教育应用提供语音朗读功能。
- 自动化脚本:在自动化流程中生成语音提示或通知。
工具列表
- mcp-tts.py:主服务脚本,负责启动TTS服务。
- mcp_client.py:客户端脚本,用于向服务发送TTS请求。
常见问题解答
- 如何配置S3上传?:在.env文件中设置AWS相关环境变量。
- 如何更改默认语音?:通过设置
TTS_VOICE
环境变量或客户端参数。 - 如何禁用S3上传?:设置
S3_ENABLED=false
或使用客户端的--no-s3
选项。
使用教程
使用依赖
- 安装ffmpeg(用于.wav到.mp3的转换):
bash brew install ffmpeg # Mac
- 下载Kokoro Onnx Weights:
- kokoro-v1.0.onnx
- voices-v1.0.bin
安装教程
- 克隆仓库:
bash git clone <repo_url>
- 配置环境变量:复制
env.example
到.env
并修改相关配置。 - 启动服务:
bash uv run mcp-tts.py
调试方式
- 测试客户端:
bash python mcp_client.py --text "Hello, world!"
- 检查日志:确保服务启动时无错误日志。
- 验证文件生成:检查本地
MP3_FOLDER
或S3存储是否生成了语音文件。