事项: 国内:5月26日AI领域动态:红杉中国推出AI基准测试工具XBench;豆包App上线实时视频通话功能,支持视频问答;QQ浏览器推出高考Agent“AI高考通”,助力高考生志愿填报与备考内容。昆仑万维发布天工超级智能体的app版本。海外:OpenAI升级Operator智能体,模型从4o升级到o3。 点评: 国内:Agent生态与C端用户体验的双轮驱动持续显现成效: 红杉中国:推出XBench基准测试工具,这一举措象征着AI评估体系重大跃进,从单一性能指标转向全面能力评估。红杉中国的这一行动,预示着国内企业对Agent领域应用的重视和投入将继续提速,国际AI评测体系革新。 字节豆包:App更新实时视频通话及问答功能,将AI的交互体验从文字拓展至实时视频场景,日常生活服务领域的深入应用,开创了一种全新的视听交互方式。视频功能的出现推动了AI服务向专业化、场景化迈进。 腾讯QQ:浏览器推出高考Agent,依托大数据与AI算法,结合不同考生定制个性化志愿填报方案与个性化信息。降低了信息不对称因素同时优化资源配置。展现出Agent平台技术在信息筛选与智能决策上的强大优势,对未来教育改革与事业提供了强大动力。 昆仑万维:发布天工超级智能体移动应用版本,标志着Agent智能体突破设备限制,实现办公碎片化时间高效利用,为Agent平台发展提供新思路; 海外:Agent领域的竞争趋于白热化: OpenAI对Operator智能体进行升级,此次更新对标Google Gemini与Anthropic的Agent多模态技术。OpenAI将Operator智能体底层架构从GPT-4o升级至o3模型,通过深度调整神经网络架构与训练策略,引入动态上下文理解机制,精准捕捉用户指令需求。 红杉中国推出的XBench基准测试工具推动AI评估体系从单一性能指标向全面能力评估转变,预示国内企业对Agent领域应用的重视和投入提速,革新国际AI评测体系。字节豆包App更新实时视频通话及问答功能,拓展AI交互体验至实时视频场景,使AI服务向专业化、场景化发展。昆仑万维发布天工超级智能体移动应用版本,突破设备限制,为Agent平台发展提供新思路。腾讯QQ浏览器推出高考Agent,彰显Agent平台在信息筛选与智能决策上的优势,助力教育改革。OpenAI升级Operator智能体底层架构至o3模型,激发其他企业加快Agent产品迭代,加剧巨头角逐,推动行业技术加速革新。这些事件表明,AI行业在评估体系、交互体验、智能体应用及技术革新等方面正快速发展,各领域不断突破创新,企业竞争加剧,技术迭代加速,未来AI行业将面临更多机遇与挑战。 投资建议:海内外AI催化不断,建议关注AI企业级服务及场景落地机会。 建议关注企业级服务:1)办公:金山办公、合合信息、福昕软件;2)营销:迈富时、明源云;3)ERP:金蝶国际、用友网络、汉得信息;4)OA:泛微网络、致远互联;5)多媒体:万兴科技、美图公司、虹软科技、当虹科技;6)邮箱:彩讯股份以及行业落地场景:1)金融:同花顺、恒生电子、京北方、宇信科技、第四范式、中科金财、新致软件;2)教育:科大讯飞、视源股份、佳发教育、鸥玛软件、新开普;3)法律:华宇软件、金桥信息、通达海;4)医疗:卫宁健康、讯飞医疗科技、润达医疗、晶泰控股;5)电商:焦点科技、值得买;6)安全:深信服、启明星辰、永信至诚;7)工业:华大九天、中控技术、中望软件、索辰科技、鼎捷数智;8)军用:中科星图、盛邦安全。 风险提示:技术推进不及预期,行业竞争加剧,宏观经济波动风险。 一、AI洞察:字节与OpenAI等Agent多点更新 5月26日AI领域动态: 国内方面: 红杉中国推出AI基准测试工具XBench,采用双轨评估体系,同时评估AI理论能力上限与实际落地价值,首期发布两大测评集;其标志着AI评估体系从传统的单一性能指标迈向全面能力评估的新阶段。以往的评估往往侧重于AI的计算速度、准确率等单一维度,而XBench工具的出现,能够综合考量AI在多种场景下的表现,包括但不限于理解能力、交互能力、知识整合能力等多个方面。这不仅为国内AI企业提供了更科学的自我评估手段,也促使企业更加注重AI产品的综合性能提升。 豆包App上线实时视频通话功能,支持视频问答,模型多模态逐步进化;其将AI的交互方式从传统的文字拓展到实时视频场景,为用户带来了全新的视听交互体验。 视频功能的出现推动了AI服务向专业化、场景化迈进。AI不再局限于简单的文字问答,而是能够结合具体的场景,如商务会议、家庭娱乐等,提供更加精准、高效的服务。进化提升了AI的应用价值,我们认为此次升级标志着AI交互的重大突破,随着模型与硬件技术的持续发展,未来有望催生更多创新交互方式与应用场景。 QQ浏览器推出高考Agent“AI高考通”,助力高考生志愿填报与备考内容,助力教育Agent的演进:相关Agent平台技术的应用为未来教育改革与事业提供了强大动力。它为教育领域提供了一种新的智能化服务模式,未来可以进一步拓展到课程推荐、学习进度跟踪、职业规划等多个教育环节。教育机构可以利用Agent技术为学生提供更加个性化的教育服务,提高教育质量和效率,推动教育行业的数字化转型。 昆仑天工超级智能体(Skywork Super Agents)移动App正式上线,它标志着Agent智能体突破了设备限制,实现了办公碎片化时间的高效利用。在快节奏的现代生活中,人们的时间被各种事务分割得支离破碎。天工超级智能体移动应用版本的出现,使得用户可以在移动设备上随时随地利用碎片化时间进行办公、学习等操作,为Agent的使用场景打开了想象空间。 国外方面: OpenAI升级Operator智能体,模型从4o升级到o3,推理和浏览器交互能力提升; 通过深度调整神经网络架构与训练策略,引入动态上下文理解机制,Operator智能体能够更精准地捕捉用户指令需求。O3版本的升级极有可能激发其他企业加快Agent产品迭代。微软、苹果等科技巨头凭借其在办公、移动场景等方面的优势,有望进一步强化自身智能体的性能,提升用户体验。从技术角度来看,未来Agent技术可能会在多模态融合、深度学习算法优化、自然语言处理等方面取得更大的突破,为AI行业的发展注入新的活力。 我们认为AI细分领域产品的不断推出,有望加速AI在日常生活中的渗透。 二、国内 (一)红杉中国发布XBench:AI学术评估体系更新 5月26日投资公司红杉中国正式推出全新AI基准测试工具XBench,并同步发布了相关技术报告《xbench:通过与专业对齐的真实世界评估来跟踪代理的生产力扩展》(xbench:Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations),旨在为业界提供一个更科学、持久且能真实反映AI客观能力的评估框架。 1、XBench的主要功能 1)双轨评估:一方面评估AI系统的能力上限与技术边界,另一方面量化AI系统在真实场景的效用价值。 2)长青评估机制:动态更新测试内容,确保评的时效性和相关性,避免题目泄露导致过拟合和评估失效,追踪模型能力演进,捕捉Agent产品迭代的关键突破。 3)核心评估集:推出xbench-ScienceQA (测试学科知识和推理能力)和xbench-DeepSearch(考察深度搜索能力)两个核心评估集,按季度或每月更新题目。 4)垂直领域智能体评测:构建与专家行为对齐的任务、执行环境与验证方式,如招聘和营销领域,标注任务经济价值,预设技术-市场契合点目标。 5)实时更新与LeaderBoard:实时更新评测结果,展示不同Agent产品在各评估集上的表现,为开发者和研究者提供参考。 2、评估机制介绍 Xbench采用了双轨评估体系和长青评估机制,旨在同时追踪模型的理论能力上限与智能体在真实场景下的实际落地价值。 1)双轨评估估机制介绍 xbench双轨系列评估集,分为xbench-AGI Tracking与xbench-Profession Aligned。其中AGI Tracking评测视为Agent应用落地的基础台阶,xbench-AGI Tracking旨在验证模型在特定能力维度上是否从0到1具备了智能表现,这类评测的关键是要足够难和巧妙、足够有区分度,来挖掘“智能”而非“系统”的边界。只有当某个AI关键能力在AGI Tracking中实现从0到1的突破,才可能进一步解锁更多专业工作流程,进入Profession Aligned评测的范畴。 图表1 Xbench-双轨框架图 1)AGI Tracking评估集包括两个部分。其一是“xbench-ScienceQA”,主要考察研究生水平的学科知识和推理能力。该评估集收集了可靠、多领域、高等教育难度、搜索引 擎上信息稀缺且答案明确的高质量题目,并计划每季度更新一次,以确保题目的公正 性、区分度与正确性,同时有效检查评估集泄露程度。其二是“xbench-DeepSearch”,专注于评估AI智能体在自主规划、信息收集、推理分析及总结归纳方面的深度搜索 能力,特别针对中文互联网环境进行了适配。此评估集要求智能体具备端到端的综合能力,所有题目均由人工出题并交叉验证,保证新颖性、答案正确性和唯一性,同样 计划每季度更新评估集,每月持续汇报最新模型表现。 图表2 AGI Tracking框架介绍 2)Profession Aligned评测则聚焦于现实生产场景,是把Agent当成一个数字员专家放在具体业务流程里来进行考察。Profession Aligned可以有很多类型应用来解决,评估不会限定解决方案,只会考核结果。xbench Profession Aligned的构建遵循如下三条核心原则:评估由需求定义:针对一个职业构建评估集,优先梳理其业务流程与任务分类,聚焦于可评估的任务项。对于部分暂不可评估的任务,通过模拟方式转化为可评估形式。评估任务随时间逐渐产生的从专家业务中Live收集:任务并非“出题”生成,而是在专家日常业务中逐步积累与收集。对于动态变化的任务,我们持续从真实业务流中获取与市场最贴近的评估内容。领域价值驱动评估目标:每项任务标注专家完成所需时间,并结合薪资基准估算任务的经济价值。每个任务预设TMF目标,一旦Agent达标则停止更新,Profession-Aligned的评估难度追求实际匹配,而不是持续变难。 图表3 Profession Aligned下专家思维模式构建任务流程 3)长青评估(Evergreen Eval):静态评估集一旦面世,会出现题目泄露导致过拟合然后迅速失效的问题;如LiveBench与LiveCodeBench评估的出现,利用动态更新的题目扩充评估集,缓解了题目泄露的问题。针对AI Capacity Evals:学术界提出了很多出色的方法论,但是受限于资源与时间不充分,无法维护成动态扩充的持续评估。xbench希望能延续一系列公开评估集的方法,并提供第三方、黑白盒、Live的评测。针对Profession Aligned Evals:xbench希望建立从真实业务中Live收集机制,邀请各行业的职业专家共同构建和维护行业的动态评估集。同时,在动态更新的基础上,xbench设计可横向对比的能力指标,用于在时间上观察到排名之外发展速度与关键突破的信号,帮助判断某个模型是否达到市场可落地阈值,以及在什么时间点上,Agent可以接管已有的业务流程,提供规模化服务。 3、Xbench追踪Agent产品市场变化 面对Agent产品超高的迭代速度,Xbench运用长青评估思路进行分析。公司发现Agent应用的产品版本是具有生命周期的,会不断集成与开发新功能在Agent产品快速迭代、外部环境持续演变的复杂背景下,xbench选择运用项目反应理论(IRT,I