Kokoro Text to Speech (TTS) MCP Server

Kokoro Text to Speech (TTS) MCP Server

site icon
2025.03.24 4
Python文本转语音语音合成文件管理内容生成
Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务,能够生成.mp3文件,并支持上传到S3存储。该服务基于Hugging Face的Kokoro-TTS模型,提供多种语音、语速和语言选项,适用于需要语音合成的各种场景。
View on GitHub

Overview

基本能力

产品定位

Kokoro Text to Speech (TTS) MCP Server 是一个文本转语音服务,专注于将文本转换为高质量的语音文件,并支持本地存储和云端(S3)存储。

核心功能

  1. 文本转语音:将输入的文本转换为语音文件(.mp3格式)。
  2. 语音定制:支持选择不同的语音、语速和语言。
  3. 文件管理:生成的语音文件可以存储在本地或上传到S3存储。
  4. 自动清理:支持设置文件保留天数,自动清理旧文件。
  5. S3集成:支持将生成的语音文件上传到AWS S3存储。

适用场景

  1. 语音助手开发:为语音助手提供语音合成能力。
  2. 内容生成:为视频、播客等内容生成语音旁白。
  3. 教育工具:为教育应用提供语音朗读功能。
  4. 自动化脚本:在自动化流程中生成语音提示或通知。

工具列表

  1. mcp-tts.py:主服务脚本,负责启动TTS服务。
  2. mcp_client.py:客户端脚本,用于向服务发送TTS请求。

常见问题解答

  1. 如何配置S3上传?:在.env文件中设置AWS相关环境变量。
  2. 如何更改默认语音?:通过设置TTS_VOICE环境变量或客户端参数。
  3. 如何禁用S3上传?:设置S3_ENABLED=false或使用客户端的--no-s3选项。

使用教程

使用依赖

  1. 安装ffmpeg(用于.wav到.mp3的转换): bash brew install ffmpeg # Mac
  2. 下载Kokoro Onnx Weights
  3. kokoro-v1.0.onnx
  4. voices-v1.0.bin

安装教程

  1. 克隆仓库bash git clone <repo_url>
  2. 配置环境变量:复制env.example.env并修改相关配置。
  3. 启动服务bash uv run mcp-tts.py

调试方式

  1. 测试客户端bash python mcp_client.py --text "Hello, world!"
  2. 检查日志:确保服务启动时无错误日志。
  3. 验证文件生成:检查本地MP3_FOLDER或S3存储是否生成了语音文件。

许可证

该项目遵循 Apache-2.0 开源许可条款,请参阅 Apache-2.0 了解完整条款。