AI智能总结
豆包推出视频通话功能,多模态入口划时代更新。5月23日,豆包App实时通话功能全面升级,新增视频聊天问答功能。用户在工作、生活、学习场景中遇问题,可随时通过视频与豆包对话获取解答。视频通话功能使用便捷,只需将豆包App更新至最新版后,于对话框选择“打电话”,点击视频通话”即可开启。 技术层面,视频通话功能基于豆包视觉理解模型的重大升级,具备多模态信息融合处理、复杂任务处理及实时联网检索三大核心能力,实现从静态图像到动态视频的跨越。技术团队优化模型架构,将平均响应延迟控制在800毫秒内,且模型具备情境保持能力,为场景化AI交互筑牢基础。 AI交互从一问一答”到实时看+听”跨越,有望催生更多应用创新。 相比传统AI助手一问一答的交互方式,豆包视频通话功能通过视觉信息的引入构建自然语境,降低了用户描述需求,整理prompt的门槛。与普通图像识别相比,其连续互动特性允许用户在对话中补充信息,助力AI修正理解偏差,使交互更自然精准。据网经社,在博物馆场景中,用户提问准确率较纯语音输入提升40%;多模态交互令老年用户使用意愿提高65%。我们认为此次升级标志着AI交互的重大突破,随着模型与硬件技术的持续发展,未来有望催生更多创新交互方式与应用场景。 建议关注: 算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、海南华铁、潍柴重机、科华数据、大位科技、新易盛、中际旭创、胜宏股份、玉柴国际、亿田智能、宏景科技、云赛智联、圣阳股份、润建股份、弘信电子、有方科技、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、杰创智能、朗科科技等。 Agent:金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、赛意信息、麦迪科技、用友网络、宇信科技、京北方、中科金财、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。 军工AI:品高股份、普天科技、能科科技、海格通信等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 豆包App实时通话功能升级,支持视频聊天问答 5月23日,豆包App实时通话功能升级,支持视频聊天问答。本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。将豆包app更新到最新版后,打开豆包对话框,选择打电话”按钮,点击右侧视频通话”选项,即可开始和豆包视频对话。 图表1:豆包视频通话入口 据豆包公众号,公园游玩不清楚花草知识,逛博物馆不认识各类文物,图书馆看书不知道哪本评分高,逛菜市场不熟悉搭配做法,都可以打开视频,问问豆包。 图表2:公园游玩不清楚花草知识可以打开视频问问豆包 图表3:逛博物馆不认识各类文物可以打开视频问问豆包 图表4:图书馆看书不知道哪本评分高可以打开视频问问豆包 图表5:逛菜市场不熟悉搭配做法可以打开视频问问豆包 豆包视频通话功能背后是核心技术突破与架构升级。此前在2024年12月18日,字节发布了豆包视觉理解模型,让用户可以同时输入文本和图像相关的问题,模型能够综合理解并给出准确的回答。据网经社,此次上线的视频通话功能建立在豆包视觉理解模型的重大升级基础上。该模型展现出三大核心技术能力:多模态信息融合处理能力,可以同步解析视觉画面与语音输入;复杂任务处理能力,能够完成从景点讲解到微积分解题等差异化需求;实时联网检索能力,确保提供信息的准确性与时效性。 相比去年底的图片理解功能,此次升级实现了从静态图像到动态视频的跨越。技术团队通过优化模型架构,将平均响应延迟控制在800毫秒以内,使交互过程接近自然对话。 特别值得注意的是模型的情境保持能力,能够在连续视频流中持续跟踪对话主题,这种技术突破为真正的场景化AI交互奠定了基础。 视频通话功能是多模态重大突破,有望解锁更多应用创新。据极客公园观点,传统的大模型AI助手的交互是“一问一答”式的,用户输入prompt然后AI生成反馈,一大矛盾在于,整理编写prompt是有门槛的,描述清楚需求难度并不低,而视觉信息的引入,则为人机交互建立了一个语境”,且这个语境的建立不需要任何门槛,用户不再需要精确描述问题,只需展示所处环境,AI就能主动理解需求背景。据网经社数据显示,在博物馆测试场景中,使用视频功能的用户提问准确率比纯语音输入提升40%,显著降低了交互门槛。交互方式上由于实现了从文本输入到多模态交互的转变,老年用户测试组的使用意愿提升65%。 同时豆包的视频通话功能相比普通的图像识别,连续互动的优势也至关重要。基于单张图像的理解和推理,很可能出现各种理解偏差、错误。有了视频模式之后,即便豆包给出了一个比较可疑的回应,也可以通过换个角度,提供更多信息,来给豆包进行更多思考和修正的机会。豆包的视频通话功能通过连贯的互动加上视觉理解,让用户和AI交互的过程变得更自然了,可以通过不断补充、解释,来接近自己想要的那个目标。这种用户和AI互相引导,对propmt进行不断修正,能极大增加prompt输入的带宽和精确度。 我们认为,从豆包的视频通话功能令AI的交互实现了从一问一答”到实时看+听”的跨越,未来随着模型能力的进一步发展,以及硬件的发展例如AI眼镜等,人类与AI的交互方式有望出现更多创新,进而带来各种新的应用场景。 建议关注 算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、海南华铁、潍柴重机、科华数据、大位科技、新易盛、中际旭创、胜宏股份、玉柴国际、亿田智能、宏景科技、云赛智联、圣阳股份、润建股份、弘信电子、有方科技、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、杰创智能、朗科科技等。 Agent:金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、赛意信息、麦迪科技、用友网络、宇信科技、京北方、中科金财、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。 军工AI:品高股份、普天科技、能科科技、海格通信等。 风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。