v1.0 · 预览版 · Realtime API

与 AI 对话, 如同真人般自然

MiniCPM VoiceCall 是首款基于 MiniCPM-o 4.5 的全双工实时通话 Android 应用。 支持随时打断、语音/视频通话,让 AI 交互从"打字"进化到"对话"。

1K+活跃用户
<1.5s响应延迟
全双工实时语音/视频通话
MiniCPM AI 通话中 · 音频模式
你好!我是 MiniCPM,有什么可以帮助你的?
帮我介绍一下你自己吧

重新定义人机交互方式

从语音到视频,从生硬问答到自然对话,MiniCPM VoiceCall 带来前所未有的 AI 通话体验。

全双工语音/视频对话

真正的实时双向通话,支持随时打断。AI 在倾听时你随时可以说话,如同真人对话般自然流畅。

视频双工模式

语音 + 视频帧的全双工通话,AI 不仅能听你说,还能"看"到你。支持前置/后置摄像头自由切换。

完全免费

基于minicpm-o4.5的安卓app项目,完全免费,无需注册,无需付费。

自定义系统提示词

自由定义 AI 的角色和行为,从贴心助手到角色扮演,打造属于你的专属 AI 伙伴。

KV Cache 监控

实时显示上下文用量上限(8192 tokens),精确掌控对话状态,长对话再也不会丢失上下文。

智能自动重连

网络波动不再是问题。内置 5 秒延迟自动重连机制,排队状态实时显示,确保通话稳定可靠。

三步开启 AI 通话

从启动到对话,仅需几秒钟。

01

配置连接

无需填写 MiniCPM-o 4.5 Realtime API 服务器地址(使用默认的就行),在设置里选择音频或视频模式,设定系统提示词,点击“保存设置”按钮。

02

建立会话

点击通话按钮,WebSocket 连接建立后自动进入排队。等待片刻即可进入全双工通话状态。

03

自由对话

像打电话一样与 AI 交流。随时说话、随时打断,AI 秒回。文字字幕实时同步显示。

全双工通信的核心

基于 WebSocket 的实时流式通信架构,音频与视频数据低延迟传输。

Android App
AudioRecord 16kHz PCM
PCMConverter int16 ↔ float32
Camera2 YUV → JPEG
WebSocket (WSS)
MiniCPM-o 4.5 Realtime API
音频输入流 input_audio_buffer.append
音频输出流 response.output_audio.delta
视频帧流 input_video_frame
会话管理 session.update / session.created

极致性能,开箱即用

专为实时语音/视频场景优化的架构设计。

Android 8.0+
最低兼容
16kHz
录音采样率
24kHz
播放采样率
10分钟
音频会话时长
90秒
视频会话时长
8192
KV Cache Tokens

看 MiniCPM VoiceCall 如何工作

一段真实使用录屏,展示全双工语音对话的流畅体验。

立即体验 AI 通话

下载 APK 安装包,在 Android 设备上即刻开启与 MiniCPM-o4.5 的自然语音对话。

无需填写 MiniCPM-o 4.5 Realtime API 服务器地址就可以直接使用,完全免费

如果您有任何问题请加入QQ群321776831可获取更多帮助