行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

海天瑞声机构调研纪要

2026-05-28 发现报告机构上传

北京海天瑞声科技股份有限公司（以下简称“海天瑞声”）成立于2005年，是我国领先的AI训练数据解决方案提供商，覆盖多语言、跨领域、跨模态的人工智能数据，服务全球近200个语种及方言，与全球810家科技企业及科研机构建立深度合作。

WDO成立对AI数据行业的影响

WDO（世界数据组织）的成立对AI数据行业带来以下影响：

填补全球治理空白：推动从单一“规则”导向转向“规则+标准”并重，引入“集体数据治理”新范式。
降低跨境合规成本：推动行业共识与标准互认，实现“一次评估、多国互认”，降低企业数据合作成本。
促进数据有序流动：为数据跨境流动提供制度供给，带动数字贸易与科技创新。
赋能全球南方国家：通过技术援助缩小数字鸿沟，使发展中国家在数字贸易中与发达国家站在同一起跑线。
加速国内数据要素国际化：国内数据交易所活跃度提升，中国数据治理经验可向国际输出。
推动产业生态落地：聚焦医疗、教育等场景推动项目落地，促进全球数字产业协同。

海天瑞声作为WDO首届理事单位，致力于推动数据质量、生产流程等标准的国际互认，提升全球化业务拓展效率，并推动数据标准共建与生态协同。

机器人厂商外购数据服务的原因

机器人厂商倾向于外购数据服务而非自建团队，因为数据工程是重人力、重流程、重管理的“苦活累活”，自建团队边际成本高且难以应对弹性需求。海天瑞声定位为“具身智能行业的数据富士康”，通过规模化、标准化、可迭代的数据供应链能力，帮助客户剥离非核心业务，实现产业分工最优解。

大模型进入后训练与强化学习阶段后的数据标注需求变化

在后训练和强化学习（RLHF/GRPO）阶段，模型目标转向“对齐人类偏好”，数据标注需求发生以下变化：

从“量”到“质”与“复杂度”的转变：后训练阶段需要高质量、细粒度、领域专家级的标注数据，如SFT依赖精确的“标准答案”，RL训练需要偏好排序数据。
聚焦“难例”与“长尾”场景：RL阶段，“难例”的价值远超易例，能极大增强模型的泛化能力，标注重点从普遍规律转向稀缺、复杂的边界案例。

具身智能赛道的发展阶段与未来空间

具身智能已被国家列为未来产业重点培育方向，当前机器人“大脑”认知决策等核心能力仍处于发展早期，规模化落地亟需海量高质量、细颗粒度的训练数据支撑，市场空间广阔。国内外头部科技企业与本体厂商已启动规模化数据采购，需求覆盖真实场景交互数据、第一人称视角数据、UMI数据、仿真数据等。部分地方政府正积极规划“具身智能训练场”，以工程化方式生产高质量数据。海天瑞声已与国内头部具身厂商签署真机数据采集合约，并与多家头部厂商、科技大厂及地方政府启动订单对接。

不同机器人厂商之间数据通用性

不同机器人公司之间确实存在可通用、可复用的数据，但需区分数据类型：

真机数据：很难直接共用，因硬件本体不统一，数据格式各自为政。
UMI数据和第一人称视角数据：相对更容易跨本体迁移，不绑定具体机器人的关节参数和运动学模型，采集的是“操作过程”本身。

行业正在推动UMI和第一人称这类“本体无关”的数据更多流通共用，同时通过技术对齐和标准统一，逐步解决真机数据的跨本体迁移问题。

公司2026年第一季度收入增长驱动因素

公司2026年第一季度实现较快收入增长，核心驱动因素包括：

全球AI竞争加剧，高质量训练数据成为核心资源，传统业务稳健增长。
ToG可信数据空间业务实现突破，与国家级数据标注试点城市深度合作。
东南亚数据交付基地完成产能爬坡，全球化交付能力与竞争力提升。

一季度毛利率提升原因

一季度毛利率同比提升主要得益于业务结构的积极变化，高毛利的政府平台类业务显著起量。政府客户可信数据空间建设提供标准化程度较高的数据处理平台及方案，相比传统定制化业务，人力密集程度更低、交付周期更短、边际成本递减效应更明显，从而带动整体毛利率增长。

具身智能数据赛道的核心竞争壁垒

海天瑞声在具身智能数据赛道上的核心竞争壁垒包括：

硬件理解+驾驭壁垒：通过头部主流本体厂商合作经验，深度理解硬件性能特性，已在北京运营首个具身智能数据训练场。
模型理解与落地壁垒：核心团队拥有大模型开发等资深背景，数据体系精准对齐机器人大脑训练范式。
综合数据工程化壁垒：具备全球化数据采集与低成本交付资源，自研AI自动化标注平台与7×24小时算法质检。

具身智能数据服务的需求逻辑

具身智能的核心在于赋予机器人理解与泛化能力的“大脑”，海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一“燃料”，这是具身智能区别于传统自动化的根本逻辑。

具身智能数据赛道的长期发展前景

具身智能数据赛道是一个比自动驾驶更长、更宽的赛道，数据需求将伴随机器人进家庭、进工厂的全过程。海天瑞声定位为全行业的数据基础设施，旨在伴随行业全生命周期成长，而非短期套利。

调研日期: 2026-05-28 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 1、WDO成立之后,您认为会对整个AI数据行业的格局、合规与商业化带来哪些影响? 尊敬的投资者:您好,WDO(世界数据组织)于2026年3月在北京成立,是全球首个专注于数据治理的非政府、非营利性国际组织,已汇集40多国200余家会员单位。其对数据行业的影响主要体现在以下几个方面: (1)填补全球治理空白此前全球缺乏专门协调数据政策的专业机构,各国规则割裂。WDO搭建统一对话平台,推动从单一“规则”导向转向“规则+标准”并重,引入“集体数据治理”新范式。(2)降低跨境合规成本各国数据政策差异导致企业跨国运营合规成本高昂。WDO推动行业共识与标准互认,有望实现“一次评估、多国互认”,降低企业数据合作成本,提升政策可预期性。 (3)促进数据有序流动 WDO为数据跨境流动提供制度供给,打通堵点,带动数字贸易与科技创新。 (4)赋能全球南方国家 WDO将发展中国家数据能力建设作为重点,通过技术援助缩小数字鸿沟。数据无价值差的特性使南方国家在数字贸易中可与发达国家站在同一起跑线,放大其在存储、算力、人力成本等方面的优势。 (5)加速国内数据要素国际化国内33家数据交易所活跃度预期将获提升,首批跨国数据产品挂牌可期。标准互认倒逼合规体系建设,具备跨境合规能力的企业优先受益,中国数据治理经验可向国际输出。 (6)推动产业生态落地聚焦医疗、教育等场景推动项目落地,提炼可复制解决方案,促进全球数字产业协同。 2、公司参与WDO的初衷是什么?在其中承担怎样的角色与定位? 尊敬的投资者:您好,海天瑞声作为仅有的少数几家企业发起单位之一参与其中,并荣膺首届理事单位,也是AI数据领域唯一入选的企业。WDO选中海天瑞声,是基于公司深耕AI训练数据领域超过20年的积累——公司已形成覆盖数据采集、处理、标注、治理到应用落地的全链条能力体系,拥有覆盖全球300多个语种的多模态数据资源,累计服务全球上千家科技企业与科研机构。公司的定位是借助WDO平台深度参与全球数据治理体系建设:一是推动数据质量、生产流程等标准的国际互认,输出工程化、规模化数据治理经验;二是依托对WDO规则和框架的深度理解,在现有出海基础上进一步提升全球化业务拓展效率;三是作为理事单位,持续发挥产业实践优势,推动数据标准共建与生态协同。 3、为什么机器人厂商倾向于外购数据服务而不是自建团队? 尊敬的投资者:您好,数据工程是一项重人力、重流程、重管理的‘苦活累活’,并非算法厂商的核心基因。自建数据团队不仅边际成本高 ,且难以应对波峰波谷的弹性需求。我们定位为“具身智能行业的数据富士康”,通过规模化、标准化、可伴随客户迭代而同步迭代的整体数据供应链能力,帮助客户剥离非核心业务,使其聚焦于算法与本体研发,实现产业分工的最优解。 4、大模型进入后训练与强化学习阶段后,对数据标注的需求发生了哪些关键变化? 尊敬的投资者,您好:在后训练和强化学习(RLHF/GRPO)阶段,模型的目标从“预训练期学会语言统计规律”转向“对齐人类偏好,这对标注数据的需求产生了深刻变化。 (1)从“量”到“质”与“复杂度”的转变后训练阶段不再需要海量的原始文本,转而需要高质量、细粒度、领域专家级的标注数据。例如,SFT(监督微调)依赖精确的“标准答案”,而RL训练则需要能区分“好/较好/差”的偏好排序数据。 (2)聚焦“难例”与“长尾”场景在RL阶段,“难例”(模型初始成功率低的数据)的价值远超易例,且能极大增强模型的泛化能力。标注重点从普遍规律转向稀缺、复杂的边界案例。 5、管理层如何看待当前具身智能赛道的发展阶段与未来空间? 尊敬的投资者:您好,公司高度看好具身智能数据这一新兴赛道,已将其作为战略重点进行前瞻布局,并组建了专项团队加快业务落地。从行业前景看,具身智能已被国家列为未来产业重点培育方向。当前,机器人“大脑”认知决策等核心能力仍处于发展早期,大模型泛化能力尚未成熟,规模化落地亟需海量高质量、细颗粒度的训练数据支撑,市场空间广阔。从市场需求看,国内外头部科技企业与本体厂商已启动规模化数据采购,需求覆盖真实场景交互数据、第一人称视角数据、UMI数据、仿真数据等。与此同时,部分地方政府正积极规划“具身智能训练场”,以工程化方式生产高质量数据,赋能产业应用。目前,公司已与国内某头部具身厂商签署真机数据采集合约,并与多家头部具身厂商、科技大厂及地方政府启动订单对接,正稳步推进样例数据方案的设计与落地,为具身智能数据业务的规模化发展蓄力筑基。 6、不同机器人厂商之间,是否存在可通用、可复用的数据? 尊敬的投资的者:您好,不同机器人公司之间确实存在可以共用的数据,但需要区分数据类型来看。目前数据主要分为三类:真机数据、UMI数据、第一人称视角数据。从共用难度来看,真机数据很难直接共用,而UMI和第一人称视角数据相对更容易跨本体迁移。UMI数据和第一人称视角数据不绑定具体机器人的关节参数和运动学模型,采集的是“操作过程”本身,理论上可以被不同机器人学习和泛化。为什么真机数据很难共用?主要有2个原因: 一是硬件本体不统一。不同厂家机器人关节数量、自由度、末端执行器各不相同,A公司的“抓取”数据没法直接拿去训练B公司的机械臂。二是数据格式各自为政,行业缺乏统一的标准和“通用语言”。所以行业正在推动的是:让UMI和第一人称这类“本体无关”的数据更多流通共用,同时通过技术对齐和标准统一,逐步解决真机数据的跨本体迁移问题。 7、公司2026年第一季度实现较快收入增长,能否详细拆解一下核心驱动因素? 全球AI竞争加剧,高质量训练数据成为核心资源。公司作为国内AI数据服务头部企业,传统业务凭借全品类、规模化、高合规优势稳健增长。同时,ToG可信数据空间业务实现突破,与国家级数据标注试点城市深度合作,提供全栈解决方案,开辟政务与公共数据新增长曲线。此外,公司东南亚数据交付基地完成产能爬坡,全球化交付能力与竞争力提升。以上因素共同驱动公司业务的高速增长。 8、一季度公司毛利率同比有所提升,主要是什么原因带来的? 尊敬的投资者:您好,2026年第一季度公司毛利率同比提升,主要得益于业务结构的积极变化,具体来说:高毛利的政府平台类业务在本季度显著起量。政府(G端)客户的可信数据空间建设,核心是提供标准化程度较高的数据处理平台及方案,相比传统定制化的数据采集与标注业务,其人力密集程度更低、交付周期更短、边际成本递减效应更明显,因此毛利率水平更高。 2026年第一季度,随着公司前期在G端市场的全面布局进入收获期,这部分高毛利业务在收入结构中的占比明显提升,从而带动了整体毛利率的增长。 9、请问李总,在具身智能数据这个赛道上,公司相比同行最核心的竞争壁垒体现在哪些方面?尊敬的投资者,您好,公司的核心壁垒体现在: (1)硬件理解+驾驭壁垒:通过头部主流本体厂商合作经验,深度理解本体硬件性能特性、负载逻辑与异构适配要点,可快速解决硬件高故障率与稳定性问题;已在北京运营首个具身智能数据训练场,依托100+台机器人实现高效数据产出。 (2)模型理解与落地壁垒:核心团队拥有大模型开发等资深背景,懂模型更懂数据;数据体系精准对齐机器人大脑训练范式,提供具备高泛化能力的数据解决方案,支撑具身大脑模型训练。 (3)综合数据工程化壁垒:不仅具备全球化数据采集与低成本交付资源;同时,自研的AI自动化标注平台与7×24小时算法质检,兼顾低成本与专家级质量。 10、具身智能数据服务的需求逻辑? 答:具身智能的核心在于赋予机器人具备理解与泛化能力的‘大脑’。这不仅是代码的堆砌,而是类似大模型‘涌现’的范式变革。由于当前仿真环境无法完美模拟物理接触与长尾场景,海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一‘燃料’,这是具身智能区别于传统自动化的根本逻辑。 11、具身智能数据赛道能做多久,是否像智驾一样只有短期机会? 答:这是一个比自动驾驶更长、更宽的赛道。正如李飞飞教授所言,自动驾驶主要解决避障与导航,而具身智能需要解决非结构化环境下的复杂物理交互。当前我们甚至还未穷尽场景的定义,数据需求将伴随机器人进家庭、进工厂的全过程。我们定位为全行业的数据基础设施 ,旨在伴随行业全生命周期成长,而非短期套利。

点击免费查看完整报告

海天瑞声机构调研纪要

你可能感兴趣