行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

海天瑞声机构调研纪要

2026-06-07 发现报告机构上传

海天瑞声作为AI训练数据解决方案提供商，2026年一季度毛利率提升主要得益于高毛利的政府平台类业务占比提升。后训练和强化学习阶段对数据标注需求从“量”转向“质”和“复杂度”，聚焦“难例”和“长尾”场景。公司在具身数据领域具备硬件理解、模型理解与落地、综合数据工程化等核心竞争优势，通过自研平台和自动化标注实现低成本与高质量。不同机器人公司间可共用UMI和第一人称视角数据，但真机数据因硬件和格式差异难以直接共享。具身智能数据服务的需求逻辑在于真实物理交互数据是训练具身大脑的关键“燃料”，客户选择外部采购数据以聚焦核心业务，该赛道具有长期发展潜力，区别于短期机会的智驾领域。

调研日期: 2026-06-07 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。投资者关系活动主要内容介绍, 1、一季度公司毛利率提升的原因是什么? 2026 年第一季度公司毛利率同比提升,主要得益于业务结构的积极变化,具体来说:高毛利的政府平台类业务在本季度显著起量。政府(G端)客户的可信数据空间建设,核心是提供标准化程度较高的数据处理平台及方案,相比传统定制化的数据采集与标注业务,其人力密集程度更低、交付周期更短、边际成本递减效应更明显,因此毛利率水平更高。 2026 年第一季度,随着公司前期在 G 端市场的全面布局进入收获期,这部分高毛利业务在收入结构中的占比明显提升,从而带动了整体毛利率的增长。 2、后训练和强化学习阶段,对数据标注需求有哪些变化? 在后训练和强化学习(RLHF/GRPO)阶段,模型的目标从"预训练期学会语言统计规律"转向"对齐人类偏好",这对标注数据的需求产生了深刻变化。 (1)从"量"到"质"与"复杂度"的转变后训练阶段不再需要海量的原始文本,转而需要高质量、细粒度、领域专家级的标注数据。例如,SFT(监督微调)依赖精确的"标准答案",而 RL 训练则需要能区分"好/较好/差"的偏好排序数据。 (2)聚焦"难例"与"长尾"场景在 RL 阶段,"难例"(模型初始成功率低的数据)的价值远超易例,且能极大增强模型的泛化能力。标注重点从普遍规律转向稀缺、复杂的边界案例。 3、公司在具身数据领域的核心竞争优势是什么? (1)硬件理解+驾驭壁垒:通过头部主流本体厂商合作经验,深度理解本体硬件性能特性、负载逻辑与异构适配要点,可快速解决硬件高故障率与稳定性问题;已在北京运营首个具身智能数据训练场,依托 100+台机器人实现高效数据产出。 (2)模型理解与落地壁垒:核心团队拥有大模型开发等资深背景,懂模型更懂数据;数据体系精准对齐机器人大脑训练范式,提供具备高泛化能力的数据解决方案,支撑具身大脑模型训练。 (3)综合数据工程化壁垒:不仅具备全球化数据采集与低成本交付资源;同时,自研的 AI 自动化标注平台与 7×24 小时算法质检,兼顾低成本与专家级质量。 4、不同机器人公司之间,是否存在可以共用的数据? 不同机器人公司之间确实存在可以共用的数据,但需要区分数据类型来看。目前数据主要分为三类:真机数据、UMI 数据、第一人称视角数据。从共用难度来看,真机数据很难直接共用,而 UMI 和第一人称视角数据相对更容易跨本体迁移。UMI 数据和第一人称视角数据不绑定具体机器人的关节参数和运动学模型,采集的是"操作过程"本身,理论上可以被不同机器人学习和泛化。为什么真机数据很难共用?主要有 2 个原因: 一是硬件本体不统一。不同厂家机器人关节数量、自由度、末端执行器各不相同,A 公司的"抓取"数据没法直接拿去训练 B 公司的机械臂。二是数据格式各自为政,行业缺乏统一的标准和"通用语言"。所以行业正在推动的是:让 UMI 和第一人称这类"本体无关"的数据更多流通共用,同时通过技术对齐和标准统一,逐步解决真机数据的跨本体迁移问题。 5、具身智能数据服务的需求逻辑? 答:具身智能的核心在于赋予机器人具备理解与泛化能力的"大脑"。这不仅是代码的堆砌,而是类似大模型"涌现"的范式变革。由于当前仿真环境无法完美模拟物理接触与长尾场景,海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一"燃料",这是具身智能区别于传统自动化的根本逻辑。 6、具身客户为何不自己做数据,而选择外部采购? 答:数据工程是一项重人力、重流程、重管理的"苦活累活",并非算法厂商的核心基因。自建数据团队不仅边际成本高,且难以应对波峰波谷的弹性需求。我们定位为"具身智能行业的数据富士康",通过规模化、标准化、可伴随客户迭代而同步迭代的整体数据供应链能力,帮助客户剥离非核心业务,使其聚焦于算法与本体研发,实现产业分工的最优解。 7、具身智能数据赛道能做多久,是否像智驾一样只有短期机会? 答:这是一个比自动驾驶更长、更宽的赛道。正如李飞飞教授所言,自动驾驶主要解决避障与导航,而具身智能需要解决非结构化环境下的复杂物理交互。当前我们甚至还未穷尽场景的定义,数据需求将伴随机器人进家庭、进工厂的全过程。我们定位为全行业的数据基础设施,旨在伴随行业全生命周期成长,而非短期套利。

点击免费查看完整报告

海天瑞声机构调研纪要

你可能感兴趣