实时音视频领域拓荒者的十年

本文作者：张进

2024-10-31 10:31

导语：谁能抓住这波实时对话式AI的机遇？

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。

一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

实时音视频领域拓荒者的十年

图：RTE2024开幕当天的现场

国内大模型领域的「大模型六虎」，其中的智谱、MiniMax、零一万物团队都出现在2024年RTE大会上，在ChatGPT发布后的近两年时间里，智谱和MiniMax分别在 tob和 toc两条路线上越走越深，有许多心得可以分享，通义千问团队也带着国内最大开发者生态的经验在RTE大会上加入讨论。

此次RTE大会也不乏AI大牛创业者的身影，例如全球最受瞩目的AI科学家之一，一年前从阿里巴巴离职、躬身入局大模型Infra的贾扬清也出现在RTE大会的主论坛上，分享了他在AI Infra领域创业 18个月后的经验心得以及对RTE+AI的趋势判断。

除此，谷歌、蚂蚁、面壁智能、生数科技、商汤、旷视、WPS、Soul等也在大会上分享了团队过去一年里在ChatGPT时代的AI探索。

今年的RTE大会，可谓是大咖云集，AI 内容拉满。

迄今，RTE大会已经是第十届，十年如一日地每年坚持举办，从未间隔。恰逢GenAI爆发，声网深耕的RTC（实时音视频）技术，让人与AI的交互不再局限于文字，也可以通过语音通话进行生动、流畅的低延时交互，这也成为当下国内外大模型厂商新的发力点——多模态。

而今年的RTE大会便提供了一个交流平台，凭借在业界的影响力，吸引各行各业专家参与，使得业内一起共同探索RTE+AI的未来潜力，这也将给RTE和声网带来更多机遇与挑战。

当年，声网CEO赵斌期待“通过RTC这样的大会让开发者使用实时音视频功能像使用水一样简单”，十年后，实时音视频功能成功在各行各业应用，丝滑地融入大众的工作生活中。在此十年之期，也是声网创办的十周年，RTE开始与GenAI结合。

走到今天，一切都源于RTE大会以及背后的声网公司十年前的那份坚持与初心。

1 拓荒到蓬勃：技术布道者到行业风向标

今天，实时音视频（RTC）互动技术已经成为一项基础设施，在我们的日常生活中无处不在。

视频会议、在线课堂、社交平台直播连线PK等众多场景都有实时音视频的支撑，才有了低延迟、低卡顿、高清晰度、沉浸式的互动体验。

十年前，国内实时音视频还是一片荒原，声网看到机会，率先推出RTC PaaS服务以此来打开市场。实时音视频技术门槛较高，仅有WebRTC，开发者依然很难上手实践，而在RTC PaaS模式下，开发者只需调用简单的API接口就能实现实时音视频互动，极大地降低了开发者的门槛和成本。

彼时恰逢移动互联网全面爆发，整个行业生机勃勃，实时音视频也开始寻找落地的契机。

成立后的第二年，声网创始人赵斌意识到实时音视频将是互联网企业必须的工具和功能，声网作为在这片荒原上第一个挥锄头开荒的人，必须担负起技术布道者的责任。

所以在 2015 年，为了让实时音视频行业拥有一个能进行技术交流、行业趋势探讨的机会，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC大会，这也是一个为开发者而生的纯行业技术峰会。

第一届RTC大会议程安排上仅由一个主会场、一个分论坛，以及一个 workshop 组成，就吸引了 700 多名观众参与。之后，声网与参会者约定——一年一会，万象更新。

在第一届WebRTC大会上，W3CWebRTC标准中Media Capture和Streams Specifications核心部分的合编者——“WebRTC标准之父”Dan Burnett出席现场会议，并与伊利诺伊理工学院客座教授Alan Johnston一起，为开发者们进行了约8个小时的培训课程，对于开发者来说，在当时RTC专业知识极度匮乏的年代，犹如久旱逢甘霖。

实时音视频领域拓荒者的十年

2015 年的RTC大会打破了RTC技术布道在国内「三无」状态：无行业会议、无专业书籍、无专业媒体及社区。而在RTE 大会迈入第10年之际，声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》，持续为科普实时互动添砖加瓦。

十年过去了，今天RTE大会已经成为业内当之无愧的“全球规模最大音视频行业峰会”，大会规模扩张到 20 多个论坛，观众数上限一度达到六七千人。

据声网官方统计，这些年间，大会累计影响了 200 多万开发者，覆盖 300 多个行业场景，吸引 2000 多名专家讲师参与分享，成绩斐然。这期间，RTE大会似乎每年都能“押题”成功，成为行业的风向标。

2015 年，在第一届RTC大会上，声网提出“直播连麦”将成为主流玩法，第二年，连麦互动便成为直播风口。

2016 年，声网认为在线教育将成为新风口，第二年，在线教育迎来爆发式增长。

……

2023 年，大会主题是智能、高清，再一次成功预判了未来趋势，24 年年初多模态爆发，Sora、GPT-4o引爆舆论，多模态成为各大模型玩家最重要的发力方向。

当AI成为科技界的主流，RTE第十届便是以“AI 爱”为主题，推出了覆盖AI、出海、Voice AI等 20+行业及技术分论坛。

在此次大会上，声网CEO赵斌认为生成式AI正在驱动IT行业发生大变革，主要体现在四个层面：终端、软件、云和人机界面，其中AI Native Cloud将成为主流。

实时音视频领域拓荒者的十年

Lepton AI 创始人兼 CEO 贾扬清也认为继 Web 云、数据云之后，AI 是云的第三次浪潮。在 AI 云的形态下，实时的交流和智能的结合在用户体验环节非常重要，可以说实时将直接与生产力划上等号。

作为此次大会的主论坛演讲嘉宾，贾扬清分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。他认为，今天是最容易建设AI应用的时代，越是简洁的AI模型思路越容易产生优秀的效果。

实时音视频领域拓荒者的十年

本次大会持续了两天，大会上的分享嘉宾集结了当下AI届的名流，包括「大模型六虎」中的智谱、MiniMax、零一万物，还有谷歌、WPS、Soul这些在AI应用落地探索走在前列的企业。他们结合自身业务，分享了过去两年里在AI、大模型方向的探索，这将是给与业界的一笔宝贵经验。

本次大会不仅囊括了RTE+AI发展的前沿技术分享，还将关注点放在了当下大家最关心的AI落地问题上。

大会最精彩的一部分便集中在在圆桌讨论环节，就AI的 6000 亿美金难题，Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人＆CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony Wang 五位嘉宾一起探讨了从 AI 基础设施到 AI 商业化落地的机会与挑战。

实时音视频领域拓荒者的十年

贾扬清认为基于开源架构的应用会越来越普遍；王铁震呼吁大家不仅要关注开源模型本身，还要重视开源模型的基础设施和数据闭环；魏伟则阐释了在产品和用户服务过程中，文本、语音、音乐、视频这些模型可以很好地帮助艺术、影视、音乐等领域的创作者提高效率，并提出新思路；曾国洋认为未来算力一定会越来越便宜，算力成本优化最终会转化为训练更强大的模型。

在大会上，声网发布了他们的RTE+AI能力全景图，在全景图中，声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。

实时音视频领域拓荒者的十年

正如CEO赵斌所说，生成式AI与RTE结合带来的场景创新，将成为下一个十年的主题。

2 新机遇：

实时多模态是通向AGI的必由之路

今年 5 月，GPT-4o一经发布便再次引起业内热议，其展示出的实时语音交互能力让人印象深刻，开创了AI实时语音交互的先河。

在发布会上，GPT-4o展示了大幅降低的语言延迟，平均 320 毫秒的反应时间，让AI与人类的对话第一次接近人类真实对话的反应速率。

实时的交流和智能的能力是人机结合的重中之重，正如贾扬清在RTE大会上所说，实时可以跟生产力划等号。

但要达到人类可接受范围内的「实时」，端到端实时多模态的崛起只是近来取得技术突破的一条明显，它从思考速度上缩短了语音的交互实践，而另一条暗线则是 RTC（实时音视频，Real-Time Communications）技术的进步。

而GPT-4o正是在采用RTC方案后，便展现出了自然、流畅的低延时语音交互体验。而且在实际应用中，用户的设备很多时候不能始终联网，所以无论多强大的模型都要依靠RTC技术来实现实时对话。

因此，RTC是将多模态大模型跟实时互动场景连接起来的关键技术桥梁。

声网CEO赵斌称，生成式AI有一个大的、清晰的方向就是向多模态清晰深度进化，除了提供GPT-4o发布会上令人惊艳的情感拟人对话之外，更重要的是打开大模型进一步智能进化的数据需求。

目前文字训练数据基本上已经被充分利用，语言本身是一种声音化的文字，能够提供的信息和数据的空间将会被放大很多倍，并且超过文字，自然环境的声音和视觉数据的获取、运用，将给大模型提供几乎无限的数据空间。因此多模态成为当下的重要发展方向。

在推进多模态清晰深度进化上，声网通过过去和多个行业伙伴打磨、对接、深度实验、测试、评估，发现多模态对话体验存在两个关键侧面：（1）声音体验包括延迟、语气、情感、情绪、口音，这些都是人与大模型进行人机对话时体验的关键角度。（2）人与大模型支持的 agent 对话时的互动体验中，最核心的就是「打断行为」，如果在对话中打断不自然，出现抢话、不知道如何顺利开展下一段讨论等行为，也会对人机交互的效果产生影响。

而这些要通过对现有的RTE技术栈等基础设施进行改进，大模型才有机会大规模参与到与人的各种对话，在各种场景、形态、模型下开展直接语音对话。未来RTE基础设施将会成为多模态大模型AI Infra的关键部分。（注：RTE在提供RTC音视频服务的基础上进一步提供了更加丰富和灵活的实时互动能力，让开发者可以根据不同的场景需求，自由地选择和组合各种实时互动能力，打造出更加个性化和差异化的实时互动体验）。

赵斌认为只有把RTE技术运用地足够好，部署到全球各个云和边缘节点，大模型的多模态能力才能普遍地、高质量地走进各种实时互动场景。

而在这场多模态带来的实时对话式AI的竞争中，由于RTE技术门槛较高，那么接下来，只有拥有核心技术和具备行业解决方案能力的实时音视频厂商才能接住大模型带来的这波新机遇。

在国内市场，声网不仅是头部玩家，还是实时音视频领域的拓荒者，深深扎根行业已达十年。

10 月初 OpenAI 发布了实时API公测版，瞄准了GPT-4o语音到语音的AI应用和智能体，还公布了三家语音API合作者的身份：LiveKit、Twilio，以及 Agora。

其中，Agora的兄弟公司便是声网，从底层的RTC等音视频能力来看，两个兄弟公司都有一致且深厚的技术积累。

相较于市面上大部分 2-3 秒的AI互动延迟实践，声网的对话式AI解决方案将对话响应延时优化至500毫秒，该方案以语音为核心，支持视频扩展，实现文本/音频/图像/视频的组合输入&输出，通过丰富的功能构建真实、自然的 AI 语音交互体验。

而声网RTE技术在AI上的探索，并不是追风口的一时兴起，早在四年前，transformer 在学术界崭露头角不久，声网是业内首家开始把AI技术引入RTE技术栈的公司，用于改善音视频传输保障。

不仅如此，紧跟兄弟公司Agora的步伐，声网跟 MiniMax 正在打磨国内第一个Realtime API。声网CEO赵斌在RTE2024上展示了声网基于 MiniMax Realtime API打造的人工智能体。在演示视频中，人与智能体能轻松流畅地进行实时语音对话，即便人打断提问、进行新的提问，智能体也能像人一样反应灵敏。

可以预见的是，AI跟RTE结合，正给人机交互带来诸多可能，纯文字互动的大模型无法实现AGI，RTC加持下的实时多模态将是必由之路。「雷峰网(公众号：雷峰网)消息」

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

张进

主笔

发私信

当月热门文章