您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海兆言网络科技]:人工智能行业:RTE和AI融合生态洞察报告 - 发现报告

人工智能行业:RTE和AI融合生态洞察报告

AI智能总结
查看更多
人工智能行业:RTE和AI融合生态洞察报告

生态洞察报告RTE融合和AI 20242024 2024 年,AI 与实时互动技术的结合达到了前所未有的高度,推动了行业的发展与变革。5 月,OpenAI 发布了 GPT-4o,并展示了其对话功能,仿佛电影《HER》中的智能助手走入了现实生活。紧随其后,6 月,a16z 发布了关于语音 AI 的展望报告,详细分析了这一市场的巨大潜力,并为未来的语音 AI 发展绘制了蓝图。之后,其他行业领军企业如 Cartesia 和 Bessemer Venture Partners 也纷纷发布了自己的洞察报告,深入探讨了语音AI和实时互动技术的前景。 进入 2024 年 10 月,OpenAI 宣布与 Agora、Twilio 等实时互动技术公司展开合作,同时,国内各大科技公司也陆续公布了在对话 AI 、多模态 AI、语音 AI 等领域的技术布局和市场战略。这一切都标志着实时互动技术与AI的结合进入了一个全新的发展阶段。 随着这两项技术的深度融合,我们已经看到它们在多个领域和场景中展现出巨大的应用潜力,也赋予了智能体越来越可用的能力,语音助手可以帮助用户打电话、操作终端设备;AI能为用户提供情感陪伴;而能够纠正语音的口语陪练也让学习更加个性化和高效。这些创新的应用让智能体变得愈加智能、实用和贴近用户需求。 在这一背景下,RTE 开发者社区与 InfoQ 研究中心联合发布了本份报告,旨在深入探讨实时互动技术与 AI 结合的现状、挑战与未来趋势。我们希望通过这份报告,为行业从业者、技术开发者以及创新者们提供有价值的洞察,帮助他们更好地理解技术融合的机遇与挑战,推动技术落地与应用创新。 本报告专注于探索如何利用实时互动技术与 AI 相结合,来提升用户体验,以及社区是如何帮助 Voice Agent 生态建设和发展的。我们相信,这些洞察将为行业的持续创新和发展提供重要参考。 前言实时互动(RTE)行业定义回顾 在报告的开头,我们再次回顾实时互动(RTE)的定义。实时互动(RTE)是远程互动、多维沟通、身临其境的交互活动。对互联网技术架构提出更高要求,其特性主要体现在实时性和互动性两个方面。 01 实时互动与 AI 行业技术演进观察与分析 02 应用场景新挑战,造就 VOICE AGENT 新的产业架构 03 RTE开发者社区架起生态桥梁,加速生态沟通 04 实时互动智能生态的未来发展预测 01 实时互动与 AI 行业技术演进观察与分析 AI 应用落地时代:重新定义算力、数据与算法的价值,从技术驱动到价值赋能1.1 在本轮浪潮的早期,行业的焦点集中在模型的规模与通用性上,尤其是对 AGI 的追逐。然而,随着时间的推移,越来越多的从业者开始转向 AI 的实际应用落地,寻求更具现实意义的创新与突破。AI 1.0 的三驾马车——算力、数据和算法,在这一新时代中展现出新的特征。但在应用落地的关键阶段,它们必须更加强调解决实际应用中的复杂挑战,才能真正推动AI的商业化进程和技术赋能。 应用落地下,三驾马车的转变与新特征 算力分布不均,云边端模式仍在探索中 当前云、边、端的算力资源分布尚未均衡,具体分配需要根据场景和行业特点动态调整。 仍需要行业和场景的专有数据积累 数据数量和质量的必要性已经得到普遍认可,但能捕捉行业需求独特性的专有数据,其获取和积累往往面临隐私、安全等多重挑战。 算法逐渐形成共识,但如何精准把握需求仍是挑战 尽管以 Transformer、LSTM 为代表的主流深度学习架构在性能和效率上趋于稳定和成熟,但在实际落地过程中,仍需结合具体场景和行业需求进行优化,关注落地性能。 AI 与 RTE 从独立走向交融,共同开启实时互动体验新纪元1.2 2024 年,AI 和 RTE( Real-Time Engagement,实时互动)这两个长期以来被视为相对独立的领域,正式开启了融合的序幕。 从独立到共生,历经四大阶段,行业正在进入实时互动智能时代1.3 在 AI 和 RTE 逐渐融合的过程中,InfoQ 研究中心发现,AI 的发展后期,为了更好的用户体验,离不开 RTE 技术支撑,而 RTE 技术的进步又能提升 AI 应用的性能,两者相互依赖、共同推动实时互动智能生态的不断升级。 实时互动智能 AI 算法与 RTE 系统协同优化,实时互 动 与 A I 深 度 融 合 , 彼 此 互 为 原生,形成密不可分的整体,共同构建更智能、更沉浸式的用户体验 AI + RTE 随着 RTE 技术在计算性能和网络传输上的优化,AI算法能够更高效利用边缘计算的数据回传,加速模型迭代,同时提升多模态和语音AI的吞吐速度,为部署和推理提供更强支撑 RTE + AI RTE 开始主动整合 AI 能力,如利用超分辨率等 AI 算法来优化实时视频画质AI 得益于 RTE 的支持,在终端设备上实现更好的响应速度和交互体验 AI 与 RTE 双线并行 AI 与 RTE 独立发展,各自在算法性能、实时交互等方面不断提升,但尚未形成深度协同 交互体验新突破:实时、互动与沉浸的重塑 1.4 在实时互动智能中,交互体验突破了用户对实时性(毫秒级延迟)、互动性(语音、视频、表情的多模态融合)、沉浸感( AR/VR 真实程度)的感知。 超真实的拟人人声和情感表达 极低延迟,极速响应 通过语音合成技术和大模型带来的理解能力,实时互动智能不仅能模拟接近人类的声音,还能根据情境表达丰富的情感,呈现高度拟人化的语音体验 通过采集、传输等环节的优化,实现毫秒级的响应时间,确保语音交互流畅自然 智能打断,沉浸对话 嘈杂环境,正常对话 通过 VAD 技术,支持实时智能打断功能,模拟真实对话互动,创造更自然的沉浸式对话体验 噪声抑制、噪音过滤,语音增强,实现在嘈杂环境下的持续对话 技术进步拓展应用边界:从传统场景创新到新兴场景创造1.5 通过 AI 和 RTE 技术的不断进步,许多此前存在局限性的应用场景得到了显著优化。这些进步不仅推动了传统场景的创新,也为新兴应用场景的拓展提供了更多可能,带动了社交与娱乐、生活服务、教育与培训、企业与办公等领域的变革。 高性能、高准确到好体验成为实时互动智能发展的新评价标准1.6 基于实时互动智能对于场景下用户体验的重视,我们认为是时候将用户体验作为应用侧的一项重要评价标准。在这一过程中,不仅要考虑AI本身的性能,更要结合AI所应用的实际场景,评估其在特定环境中的表现。因此,实时互动智能和 AI 大模型的评价标准需要有所差别,特别是在应用场景中的互动质量和用户体验上,必须有针对性的标准来进行评估。 高性能 高性能要求:代表应用落地在实时互动场景中运行的效率要求,受到云、边、端算力协同调度和合理架构设计的影响 好体验 高准确 好体验要求:代表应用场景中用户对交互效果、实时性、准确性及沉浸感的感知和期待 02 应用场景新挑战,造就 VOICE AGENT 新的产业架构 Voice Agent —— 实时互动智能的破局者2.1 实时互动智能生态仍处于早期阶段,生态内的关系尚未完全明晰,但各方都在快速探索业务落地的可能性。在这之中,Voice Agent 作为实时互动智能中确定性较高的分支,以其自然直观的交互形式和成熟可靠的技术实现,展现出在特定场景中高效且稳定的优势。 Voice Agent 是利用语音AI和实时互动技术,借助语音等多模态的形式进行交互、解决特定场景问题的智能体,代表有情感陪伴、智能外呼、实时翻译/会议协作等。 Voice Agent 高性能 好体验 高准确 算力架构:当前实时互动智能应用,尤其是VoiceAgent,对高性能的需求主要集中在毫秒级延迟和实时响应上。这种高性能要求,离不开云、边、端三方算力的高效协同和合理调度设计。随着云端大模型的规模化以及边缘计算能力的增强,VoiceAgent 在特定场景中将实现更稳定的性能表现。 模型发展:相较于视频等,GPT-4o等端到端多模态模型的出现、相关API的发布简化了语音交互的工作流程,并提高了实时性与语义理解的质量。这些技术进步使得 Voice Agent 在处理复杂对话时更加高效和准确。 交互方式:语音交互方式更接近人类自然沟通,具备天然的语言逻辑和情感表达优势。这使用户不需要适应复杂的操作界面或学习曲线,减少交互中的不确定性,用户体验更佳。 应用场景:语音交互通常被限定于特定场景,如语音助手、导航、实时翻译等,其使用路径和目标明确,用户的操作和系统的响应使用户体验更佳。 Voice Agent 产业生态上下游链路较长,跨层协作难度大2.3 上下游链路长、生态协作效率低的问题仍然突出。在现状中,产品侧快速变化的需求难以高效传递至基础设施和中间层,响应速度受限;同时,工具与标准缺乏统一,跨层协作复杂度高,进一步制约了整体生态的联动效能。Voice Agent 的产业架构虽在完善,但现阶段各层级的协同能力仍需提升,以应对更高效、更敏捷的市场需求。 Voice Agent 的产业架构现状 以基础设施为核心,产品生态协作效率受阻 Voice Agent 产品侧仍在早期探索,但产品设计、核心功能与场景适配仍在探索中,缺乏通用性或标准化方案。制约了生态协同效率的提升 包含从底层 Infra 和 API 选择到智能体平台的一系列,为了实现 Voice Agent 最终应用实现的工具及平台 上下游链条长,导致响应速度慢 应用侧快速变化的场景需求,难以通过多层链路迅速反馈到基础设施,放慢了响应速度 Voice Agent产品侧面临算力、工具、终端与流量的多重生态协作挑战2.4 在实时互动智能领域,Voice Agent 应用的未来充满潜力,但目前仍面临算力、终端、流量和工具四大关键挑战。这些挑战不仅影响用户体验的提升,更需要整个生态系统的深度协作来应对。 端侧和云端算力的协作挑战 多终端和多场景的协作挑战 算力是 Voice Agent 应用落地的核心。云端算力支持高精度模型,但高成本和响应延迟限制了普及;端侧算力延迟低,但能力有限,需依赖云端补充。如何平衡云端与端侧算力分布,实现高性能与经济性的兼顾,成为整个生态的共同难题。 多样化的设备和场景对终端体验提出了更高要求,例如降噪处理、弱网对抗和低延迟交互等技术挑战。单凭应用层难以全面适配,亟需硬件厂商、基础设施提供方与开发者协同优化技术方案,提升多终端环境下的适配效率。 API/SDK与场景的协作挑战 产品和流量渠道的协作挑战 当前 API 和 SDK 在 Voice Agent 原生场景中的设计适配性不足。交互中的打断处理、语句分割、多轮对话逻辑等需求未能得到有效支持,加剧了开发复杂性。如何围绕 Voice Agent 的场景特性,优化接口设计,提供更专用、更灵活的工具,成为提升开发效率的重要方向。 在用户分散的市场中,Voice Agent 应用难以通过传统方式高效触达目标群体。如何通过数据共享、算法优化和场景协同,实现精准覆盖、减少无效流量,成为生态共建的重要课题。 Voice Agent 产品侧面临算力、工具、终端与流量的多重生态协作挑战2.5 Voice Agent 需要格外考虑到云端和端侧的算力分布,这主要来自于语音交互对低延迟和流畅的用户体验的追求。 高效的云端协同成为用户体验的核心 通过云端与端侧算力的智能调度和合理分配,可以根据应用场景的需求,实时动态地在云端和端侧之间平衡计算任务。这样,既能利用云端强大的算力处理复杂任务,又能在端侧实现低延迟、高效能的实时响应,从而提供流畅、丝滑的用户体验。 性能高成本高和体验低 体验佳资源有限 云端算力虽然能提供足够的处理能力,能够充分展现模型的能力,却伴随着较高的成本和较慢的响应速度。这种延迟对于需要实时交互的实时互动智能场景而言,会很大程度地影响用户体验。 端侧算力具有低延迟和本地处理的优势,能够快速响应