您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华鑫证券]:计算机行业周报:清华等机构开源强化学习框架RLinf,字节发布原生GUI智能体UI-TARS-2 - 发现报告

计算机行业周报:清华等机构开源强化学习框架RLinf,字节发布原生GUI智能体UI-TARS-2

信息技术2025-09-09任春阳华鑫证券M***
计算机行业周报:清华等机构开源强化学习框架RLinf,字节发布原生GUI智能体UI-TARS-2

清华等机构开源强化学习框架RLinf,字节发布原生GUI智能体UI-TARS-2 —计算机行业周报 投资要点 推荐(维持) ▌算力:算力租赁价格平稳,清华等机构开源强化学习框架RLinf 分析师:任春阳S1050521110006rency@cfsc.com.cn 9月1日,清华大学、北京中关村学院与无问芯穹等机构联合开源了全球首个面向具身智能的大规模强化学习框架RLinf(Reinforcement Learning Infinite)。该框架针对具身智能“渲训推一体化”带来的计算与显存资源竞争等挑战,提出混合式执行模式与M2Flow编程映射机制,支持多组件协同训练,在Maniskill3等任务中实现系统效率提升超120%,模型成功率显著提高。其集成双后端方案,具备高度灵活性与可扩展性,为下一代智能体研究提供了重要基础设施支持 ▌AI应用:Gemini周停留时长环比+8.05%,字节发布原生GUI智能体UI-TARS-2 9月4日,字节Seed发布了原生GUI智能体UI-TARS-2,其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多任务。在GUI基准测试中,UI-TARS-2多项测试中超过了OpenAI和Claude Agent,同时其玩15款小游戏的水平已经达到人类水平的60%。 资料来源:Wind,华鑫证券研究 相关研究 ▌AI融资动向:Attio完成5200万美元B轮融资,以AI原生架构重塑CRM未来 1、《Shopify(SHOP.O):双业务驱动营收高增,AI与全球化战略打开长期发展空间》2025-09-042、《计算机行业点评报告:禾赛科技(HSAI.O):ADAS驱动增长,机器人与定点 合作增强动能》2025-09-043、《计算机行业周报:谷歌发布图像模型Gemini2.5FlashImage,元石科技发布旗舰模型问小白5》2025-09-02 9月3日,Anthropic宣布完成130亿美元F轮融资,由ICONIQ、Fidelity Management&Research Company和Lightspeed Venture Partners共同领投,黑石集团、卡塔尔投资局等多家顶级机构跟投,投后估值达到1830亿美元,成为全球增长最快的科技企业之一。该公司自2023年推出Claude大模型以来实现爆发式增长,年化收入在8个月内从10亿美元迅速突破50亿美元,企业客户超30万,大客户数量年增近7倍。其代码生成产品Claude Code年化收入突破5亿美元,展现出强劲的商业化能力。本轮资金将用于扩展企业服务、深化安全研究及全球市场布局,同时公司以象征性价格向美国政府提供AI服务,体现战略与社会责任并重。 ▌投资建议 2025年9月4日,博通发布2025财年第三财季财报。财报显示,该财季公司实现营收159.52亿美元(同比+22%)、调整后净利润107.02亿美元(同比+30.15%),均略超先前收 入指引;其中AI业务表现尤为亮眼,营收达52亿美元(同比+63%),且公司预计第四财季AI芯片收入将增至62亿美元、总营收约174亿美元。公司业绩增长的核心驱动力,在于其战略聚焦的ASIC定制芯片业务。该芯片与英伟达主推的通用GPU芯片定位存在差异,其是专为云服务商在AI推理场景下的特定需求定制而开发,兼具高业务协同性与低能耗优势。公司当前已稳固获取三大超大规模客户的持续性需求——第三财季XPU业务在AI总收入中占比达65%,且三大客户预计将在2027财年为公司带来600亿至900亿美元的潜在市场;同时,公司还新获一家客户超100亿美元的XPU订单。市场层面来看,ASIC芯片当前主要聚焦于AI推理需求领域,与GPU芯片呈现并行发展的格局。此次博通财报印证了AI算力赛道的高成长属性,亦有望为当前算力市场注入增长动能;叠加全球AI算力设施加速部署、行业需求高景气及ASIC与GPU并行发展格局明晰,我们持续看好AI算力板块。 中长期,建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。 ▌风险提示 1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。 正文目录 1、算力动态:算力租赁价格平稳,清华等机构开源强化学习框架RLINF...........................41.1、数据跟踪:算力租赁价格平稳......................................................41.2、产业动态:具身智能迎来新突破,清华等机构开源强化学习框架RLinf...................42、AI应用动态:GEMINI周停留时长环比+8.05%,字节发布原生GUI智能体UI-TARS-2.............82.1、周流量跟踪:Gemini停留时长环比+8.05%...........................................82.2、月流量跟踪:AI搜索|百度平均访问量环比+33.91%...................................82.3、产业动态:字节发布原生GUI智能体UI-TARS-2,可自主完成诸多任务...................113、AI融资动向:ATTIO完成5200万美元B轮融资,以AI原生架构重塑CRM未来..................134、行情复盘..............................................................................145、投资建议..............................................................................166、风险提示..............................................................................16 图表目录 图表1:本周算力租赁情况...............................................................4图表2:推理大模型与具身智能体对比图...................................................5图表3:RLinf系统及亮点介绍...........................................................5图表4:共享式、分离式和混合式执行模式对比.............................................6图表5:OpenVLA、OpenVLA-OFT在Maniskill3自建25个任务中采用PPO算法及具身版GRPO算法的训练曲线............................................................................7图表6:2025.8.23-2025.8.29 AI相关网站流量.............................................8图表7:2025.8 AI产品流量全球总榜.....................................................9图表8:UI-TARS-2在GUI基准测试中表现.................................................11图表9:UI-TARS-2在游戏环境中测试表现.................................................12图表10:本周AI初创公司融资动态.......................................................13图表11:上周(9.1-9.5日)指数日涨跌幅................................................14图表12:上周(9.1-9.5日)AI算力指数内部涨跌幅度排名..................................14图表13:上周(9.1-9.5日)AI应用指数内部涨跌幅度排名..................................15图表14:重点关注公司及盈利预测........................................................16 1、算力动态:算力租赁价格平稳,清华等机构开源强化学习框架RLinf 1.1、数据跟踪:算力租赁价格平稳 本周算力租赁价格平稳。具体来看,显卡配置为A100-40G中,腾讯云16核+96G价格为5.73元/时,阿里云12核+94GiB价格为31.58元/时;显卡配置为A800-80G中,恒源云16+256G价格为6.03元/时。 1.2、产业动态:具身智能迎来新突破,清华等机构开源强化学习框架RLinf 9月1日,清华大学、北京中关村学院与无问芯穹等机构联合宣布开源全球首个面向具身智能的大规模强化学习框架RLinf(Reinforcement Learning Infinite)。该框架旨在应对具身智能领域“渲训推一体化”带来的独特挑战,为多模态、多组件协同的大规模训练提供高效、灵活且可扩展的系统支持。 人工智能正逐步从感知智能迈向行动智能,具身智能作为融合大模型与物理交互的重要方向,对强化学习基础设施提出了更高要求。与纯数字智能体不同,具身智能需同时处理大脑与小脑的协同,并需在仿真环境中进行高频交互,导致计算与显存资源竞争激烈,传统共享式或分离式执行模式难以高效适配。 资料来源:机器之心,华鑫证券研究 RLinf框架通过六大层级架构——用户层、任务层、执行层、调度层、通信层和硬件层——实现了系统的高度灵活与可扩展性。其核心创新之一是提出了“混合式执行模式”,结合细粒度流水设计,在具身训练场景下实现超过120%的系统提速,并显著提升模型性能。 资料来源:机器之心,华鑫证券研究 在为实现多执行模式的统一支持,RLinf提出了宏工作流到微执行流的映射机制(M2Flow),允许用户以过程式编程方式构建训练流程,并通过配置参数灵活切换执行模 式,兼具编程灵活性与编译优化能力。用户可将不同组件封装为Worker,由系统自动调度其运行位置、批大小与执行时机,目前已支持共享式、分离式与混合式三种模式。 资料来源:机器之心,华鑫证券研究 在 后 端 集 成 方 面 ,RLinf提 供 两 套 方 案 : 针 对 成 熟 模 型 架 构 ( 如 具 身 大 脑 ) 的Megatron+SGLang/vLLM后端,支持5D并行等大规模训练优化;以及针对快速验证与小规模训练的FSDP+Hugging Face后端,支持开箱即用与LoRA等实用功能。此外,框架还集成断点续训、多平台可视化等一线需求,并正在扩展SFT模块以提供一站式训练服务。 通 信 与 调 度 是 强 化 学 习 框 架 的 关 键 瓶 颈 。RLinf设 计 了 自 适 应 通 信 库 , 支 持CUDAIPC/NCCL自动切换、负载均衡传输、多通道并发与快速重配置,显著提升通信效率与系统稳定性。其自动化调度模块能够根据组件性能特征动态选择最优执行模式,并支持秒级在线扩缩容,极大提升资