
Voice Call MCP Server

2025.04.21
0
TypeScript语音通话AI 助手交流协作
Voice Call MCP Server 是一个基于 Model Context Protocol (MCP) 的服务器,它允许 Claude 和其他 AI 助手通过 Twilio 和 OpenAI(GPT-4o Realtime 模型)发起和管理语音通话。该服务器为开发者提供了一个基础框架,可以快速启动 AI 语音通话的探索,并在此基础上开发更多功能。
View on GitHub
Overview
基本能力
产品定位
Voice Call MCP Server 是一个用于 AI 语音通话的服务器,旨在通过 Twilio 和 OpenAI 实现 AI 助手的语音通话功能。
核心功能
- 通过 Twilio 发起外拨电话
- 使用 GPT-4o Realtime 模型实时处理通话音频
- 通话中实时切换语言
- 预置常见通话场景的提示(如餐厅预订)
- 使用 ngrok 自动建立公共 URL 隧道
- 安全处理凭证
适用场景
- 让 AI 助手代表用户拨打电话
- 处理实时音频对话
- 执行需要语音通信的复杂任务
工具列表
- Twilio:用于拨打电话和处理通话状态
- OpenAI GPT-4o Realtime 模型:用于实时处理通话音频
- ngrok:用于自动建立公共 URL 隧道
常见问题解答
- "Phone number must be in E.164 format":确保电话号码以 "+" 开头并包含国家代码。
- "Invalid credentials":检查 TWILIO_ACCOUNT_SID 和 TWILIO_AUTH_TOKEN 是否正确。
- "OpenAI API error":确认 OPENAI_API_KEY 是否正确且有足够的余额。
- "Ngrok tunnel failed to start":确保 NGROK_AUTHTOKEN 有效且未过期。
- "OpenAI Realtime does not detect the end of voice input, or is lagging.":可能是 Twilio 和接收方网络运营商之间的语音编码问题,尝试使用不同的接收方。
使用教程
使用依赖
- Node.js >= 22
bash nvm install 22 nvm use 22
- Twilio 账户和 API 凭证
- OpenAI API 密钥
- Ngrok Authtoken
安装教程
- 克隆仓库
bash git clone https://github.com/lukaskai/voice-call-mcp-server.git cd voice-call-mcp-server
- 安装依赖并构建
bash npm install npm run build
调试方式
- 确保所有环境变量已正确设置:
TWILIO_ACCOUNT_SID
TWILIO_AUTH_TOKEN
TWILIO_NUMBER
OPENAI_API_KEY
NGROK_AUTHTOKEN
RECORD_CALLS
(可选)- 启动服务器并检查日志是否有错误信息。
- 使用 Claude Desktop 进行测试,确保语音通话功能正常工作。