Voice Call MCP Server

Voice Call MCP Server

site icon
2025.04.21 0
TypeScript语音通话AI 助手交流协作
Voice Call MCP Server 是一个基于 Model Context Protocol (MCP) 的服务器,它允许 Claude 和其他 AI 助手通过 Twilio 和 OpenAI(GPT-4o Realtime 模型)发起和管理语音通话。该服务器为开发者提供了一个基础框架,可以快速启动 AI 语音通话的探索,并在此基础上开发更多功能。
View on GitHub

Overview

基本能力

产品定位

Voice Call MCP Server 是一个用于 AI 语音通话的服务器,旨在通过 Twilio 和 OpenAI 实现 AI 助手的语音通话功能。

核心功能

  • 通过 Twilio 发起外拨电话
  • 使用 GPT-4o Realtime 模型实时处理通话音频
  • 通话中实时切换语言
  • 预置常见通话场景的提示(如餐厅预订)
  • 使用 ngrok 自动建立公共 URL 隧道
  • 安全处理凭证

适用场景

  • 让 AI 助手代表用户拨打电话
  • 处理实时音频对话
  • 执行需要语音通信的复杂任务

工具列表

  • Twilio:用于拨打电话和处理通话状态
  • OpenAI GPT-4o Realtime 模型:用于实时处理通话音频
  • ngrok:用于自动建立公共 URL 隧道

常见问题解答

  1. "Phone number must be in E.164 format":确保电话号码以 "+" 开头并包含国家代码。
  2. "Invalid credentials":检查 TWILIO_ACCOUNT_SID 和 TWILIO_AUTH_TOKEN 是否正确。
  3. "OpenAI API error":确认 OPENAI_API_KEY 是否正确且有足够的余额。
  4. "Ngrok tunnel failed to start":确保 NGROK_AUTHTOKEN 有效且未过期。
  5. "OpenAI Realtime does not detect the end of voice input, or is lagging.":可能是 Twilio 和接收方网络运营商之间的语音编码问题,尝试使用不同的接收方。

使用教程

使用依赖

  • Node.js >= 22 bash nvm install 22 nvm use 22
  • Twilio 账户和 API 凭证
  • OpenAI API 密钥
  • Ngrok Authtoken

安装教程

  1. 克隆仓库 bash git clone https://github.com/lukaskai/voice-call-mcp-server.git cd voice-call-mcp-server
  2. 安装依赖并构建 bash npm install npm run build

调试方式

  1. 确保所有环境变量已正确设置:
  2. TWILIO_ACCOUNT_SID
  3. TWILIO_AUTH_TOKEN
  4. TWILIO_NUMBER
  5. OPENAI_API_KEY
  6. NGROK_AUTHTOKEN
  7. RECORD_CALLS(可选)
  8. 启动服务器并检查日志是否有错误信息。
  9. 使用 Claude Desktop 进行测试,确保语音通话功能正常工作。

许可证

该项目遵循 MIT 开源许可条款,请参阅 MIT 了解完整条款。