查看: 1320|回复: 2

声网刘斌：“Her”真正落地实现离不开RTE能力的支撑｜MEET 2025 [复制链接]

ttxx

军衔等级：

上尉

注册：2010-4-28 点赞数

10

发表于 2024-12-27 17:40:53 |显示全部楼层

大模型正在改变实时互动技术。

声网作为全球音视频技术龙头，2020年在纳斯达克上市，目前是全球最大的实时互动云服务商，平台单月音视频使用时长达700亿分钟。

同时，声网兄弟企业Agora也是OpenAI Realtime API的合作伙伴，在国内声网也与MiniMax正在打磨国内首个Realtime API。

在MEET 2025智能未来大会大会现场，声网首席运营官刘斌分享了一个看似离大模型有点距离，实则却不可或缺的环节：

RTE（Real Time Engagement）在AI Agent时代的全新价值。

为了完整体现刘斌的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希翼能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会，20余位产业代表与会讨论。线下参会观众1000+，线上直播观众320万+，获得了主流媒体的广泛关注与报道。

核心观点

多模态对话体验的两个关键：延迟是否低于1.7秒，能否打断
多模态对话AI Agent应用产品化落地的关键：端到端、全球任意地点、弱网环境、各种终端下的低时延
不管是语音,还是视频,只要是多模态有交互的AI Agent应用,离不开RTE能力的支撑

演讲全文

今天非常高兴有这样机会来到现场跟分享，声网作为RTE领域的企业，和AI领域的大模型与应用厂商，和当下的大模型关系是什么，RTE演进如何助力AI Agent应用落地。

第一，声网到底是谁。

声网于2020年在纳斯达克上市，专注于提供实时互动云服务。经过多年的发展，该企业在该行业取得了一定的进步。

大家企业的口号简洁明了，即让实时互动像空气和水一样，无处不在。

这一理念旨在实现未来无论身处何地，都能获得如同面对面般的互动体验。经过多年的努力，大家在市场占有率方面位居第一，并拥有大量注册开发者应用。

单月音视频分钟数约为700亿，这意味着每天在大家平台上的分钟数约为20多亿。在这种情况下，全球超过60%的泛娱乐应用选择声网作为其合作伙伴。大家涉及的领域包括泛娱乐、教育和物联网等，均拥有相应的合作伙伴。

第二，大家做的事到底和AI Agent有什么关系，如何去助力它。

首先，值得关注的是，OpenAI于10月1日在官方网站发布Realtime API时，曾在合作伙伴中提及Agora，即大家声网的兄弟企业。

其次，在10月份的RTE大会上，大家宣布与MiniMax正在打磨国内第一个Realtime APl。

第三，AI Agent时代到底怎么样做才能做的更好。

大家可以观察到，在真正多模态模型推出或对话时，相较于原先的纯文本交互，已经发生了变化。

原先的交互本质上是异步的，即我可以发送信息，说完后等待处理并返回结果。然而，在真正多模态交互中，要求实时性和双工性，即我说他听，他听完后我再听。

在这个过程中，有几个关键因素会影响效果。

首先，大家较为熟悉的语气、情感、情绪和口音等因素在模型中得到了大量处理。

其次，延迟也是一个非常重要的因素。相信大家都有相关的感受。

从实际测量数据来看，真正达到实用效果的延迟一般在1.7秒左右。如果低于这个值，人们会觉得与Agent交流很自然；而如果延迟达到2秒多或3秒，人们就会感觉到有些卡顿，反应稍显迟缓。这是一个非常重要的关键点。

另一个关键点是，能否实现打断功能以及如何更好地进行主动交互。

要实现这些功能，除了模型能力外，还需考虑应用的落地方式。是在实验室的PC上进行演示，还是将其应用于各种手机终端、物联网终端以及其他设备上？

当有此需求时，在产品化落地的过程中会发现，除了之前提到的低时延等能力外，还需要在端到端都能实现。此外，还需在不同地点、不同网络环境下以及各种终端设备上都能得到支撑，这并非易事。

关于这张图，尽管大家可能不太关注，但大家当时非常重视。这是5月份OpenAI GPT-4o发布时的情况，大家可以看那根网线，这是要保证网络的稳定性。

在4o发布之后，大家都在等待API的推出，原本预期一周或两周内会推出，但实际上并非如此，直至10月份才发布。原因在于，一开始大家认为这件事很简单，只需对原有的RTP Server进行修改，将文本传输改为语音传输即可。

然而，实际情况并非如此简单。大家与他们合作，直至10月份才正式推出。正是大家在其中发挥作用，使其真正落地实现。

在此，我向大家展示声网多年来的工作成果。

首先，大家拥有一张遍布全球的SD-RTN网络，确保在这张网络上音视频传输都能在标准的400毫秒内端到端到达，这是网络支撑。其次，大家多年的积累使大家能够在30多个平台的框架和30000多终端机型上提供SDK支撑，涵盖各种操作系统。您只需很快地建立这个能力。包括物联网的各种设备终端，都有相应的SDK。

此外，在实际应用中，如大家在这个会场，如果我要与AI对话，网络情况和环境噪声并非固定不变。如何在极端弱网下保证效果，这也是大家多年技术积累的结果。

正是大家在这一领域的深厚积累，使得大家能够构建一个具有实际应用价值的Voice对话Agent。只有将这两者紧密结合，才能实现这一目标。这也说明了为什么在发布Realtime API时，大家需要寻找这样的合作伙伴共同推进。

大家还发现，现有的RTC技术栈和基础设施存在大量改进空间。只有通过改进，大型模型才有可能在各种场景、形态和模型下大规模参与到人类的语言对话中，其参与来源也将从云端扩展到终端，再到更低延迟的边缘。基于这些能力的改进和普及，未来RTE必将成为生成式AI时代AI基础设施（AI Infra）的关键组成部分。

如图右侧红色部分所示，Realtime API通常由大型模型厂商发布。然而，在左侧这一圈，包括中间的网络和声网的Linux Server SDK，以及前端的SDK，如果没有这样的基础，大家将很难实现这一整套效果。这正是我之前所说明的原因。如果中间的这些环节未能实现，那么效果将无法显现。

在此，大家将从当前视角出发，探讨未来的行动方向以及如何进一步提升效果。近期，大家一直在深入研究和投入资源，以优化人与人之间的对话体验。然而，在人与模型之间的对话中，体验的提升需要充分考虑模型的特性。

例如，大家从传统的QoS、QoE发展到如今的AI QoE，乃至多模态AI QoE，这其中涵盖了VAD技术、噪音消除能力以及相关网络优化等方面。这些新的方法和方式使得大家与模型的对话更加贴近实际情况。以一个简单的例子来说明，人与人交谈时不会夹杂其他信息，但人与模型对话时则可能不同，语音传输过程中可能还包含其他信息。因此，在弱网环境和应用场景中如何实现良好适配，便显得尤为重要。

大家曾在RTE大会上展示过一个实例，当时的会场规模较大，人数众多且环境嘈杂，大家在现场使用了一个5G设备进行演示。

大家想做到的是从60分提升到90分，这不仅涉及模型难度的提高，还包括周边工程配套的完善，以便将产品从演示阶段发展为更具实用性的应用。

关于声网的产品体系，大家正不断加强其功能，如Linux SDK、AI VAD能力以及AI Agent Service的补充与优化。通过声网RTE+AI能力全景图，大家可以看到大家的整体思路，包括从基础设施到Agent，再到场景的演进，旨在成为生成式AI时代的AI基础设施，这也是大家的愿景。

最后，我想强调一点：

任何涉及大模型多模态实时交互的应用，无论是语音还是视频，只要存在多模态交互，这类Agent应用的落地都离不开RTC技术的支撑。

在这种情况下，如果大家有这样的需求，请来找声网，大家一定给大家更好的体验。

谢谢大家，今天就到这里。

来源：网易

举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-4-22 04:55 , Processed in 0.174745 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册