您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [发现报告]:海天瑞声机构调研纪要 - 发现报告

海天瑞声机构调研纪要

2026-03-24 发现报告 机构上传
报告封面

调研日期: 2026-03-24 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 1、公司2025年收入增长的驱动因素是什么? 全球人工智能产业从“技术突破”迈向“规模化落地”,公司训练数据业务迎来强劲增长,其中视觉业务收入增长超过200%,文本业务收入增长超过100%,语音业务收入亦保持合理水平。驱动这一高增态势的核心动能来自四重引擎:一是国内外科技巨头加速全球纵深布局,带动各类模态的多语种数据爆发增长;二是视觉大模型持续突破,推动高精度、场景化视觉数据投入持续加码;三是交互体验迈向拟人化,多情感、多角色、多音色的语音数据需求持续释放;四是垂直行业渗透加速,文旅、医疗、教育等领域垂类大模型落地提速,专业化、场景化数据需求日益凸显。 与此同时,AI生态的参与主体日趋多元,除传统科技企业外,政府与国央企积极入局共建。政府机构依托数据资源优势,通过可信数据空间建设打通数据孤岛,围绕当地特色产业构建高质量语料体系。25年,公司已为广西、四川等地打造多类特色数据集,并同步推进湖南、内蒙古等地的专项数据集建设,相关收入有望成为公司新的价值增长高地。此外,国务院国资委深入推进央企“AI+”专项行动,以运营商为代表的央企加快布局自主可控AI大模型,数据资源投入力度持续加大,为公司带来新的增量空间。 此外,公司新拓展的东南亚数据交付体系已进入成熟运营阶段,面向海外客户的定制化数据服务能力持续提升,为境外收入贡献了可观的持续性增量。 除上述训练数据业务外,公司积极尝试向下游应用环节延伸,成功拓展数字人研发及音色模型平台重大项目,以数千数字人形象及丰富音色赋能区域乡村振兴与文化传播,该应用类收入也正成为公司业务版图中的有益补充。 以上多重增长动能叠加共振,共同驱动公司2025年度营业总收入实现显著增长。 2、政府类业务布局和进展如何? 目前,我们与地方政府的合作已形成清晰的模式:一是基于地方特色数据(如农业、文旅)建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。 在项目进展方面,公司已与成都、长沙等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特、保定、彭州等地方政府已启动具体项目推进。25年,公司已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。 3、数据要素产业的商业化路径是什么样? 数据要素产业的商业化路径主要通过三类主体协同实现: 一是数据交易所(中心),提供合规保障、标准建设、生态培育等综合服务,推动数据产品流通交易。二是数据流通服务平台企业,聚焦行业领域,围绕产业链、生态链以价值共创方式促进数据流通利用。三是数据商,负责开发数据产品和服务,建设高质量数据集,深度挖掘场景价值。 从价值转化链条看,数据需经过要素化→资源化→产品化→资产化→资本化的完整路径,最终通过数据资产入表、质押融资、证券化等方式实现商业价值变现。 4、数据价值流通各环节的核心堵点是什么? (1)数据产权确权难 数据所有权、使用权等权属界定模糊,产权不明晰导致企业不敢触碰灰色地带数据,易引发纠纷。中央虽已出台产权顶层设计,但具体制度 尚未落地。 (2)定价机制缺失 数据价值评估缺乏共性标准,定价权归属不明确,买卖双方难以达成合理价格,尤其非标数据的场景价值动态匹配仍是难题。 (3)数据孤岛与流通壁垒 大量数据分散在不同主体手中,跨行业、跨领域的数据融合存在隐形壁垒,无法有效打通。公共数据占比超75%,但开放利用不足。 (4)安全合规顾虑 数据持有方普遍存在合规焦虑、安全焦虑和价值焦虑,担心触碰监管红线、原始数据泄露或数据被低价使用。法律层面重安全规制、轻流通促进。 (5)技术能力制约 部分场景数据需求现有技术(人工标注、人机协同、自动化处理等)无法满足,隐私计算、区块链等技术与实际场景融合深度有待加强。 5、WDO成立后,对整个数据行业可能带来哪些变化? WDO(世界数据组织)于2026年3月在北京成立,是全球首个专注于数据治理的非政府、非营利性国际组织,已汇集40多国200余家会员单位。其对数据行业的影响主要体现在以下几个方面: (1)填补全球治理空白 此前全球缺乏专门协调数据政策的专业机构,各国规则割裂。WDO搭建统一对话平台,推动从单一“规则”导向转向“规则+标准”并重,引入“集体数据治理”新范式。 (2)降低跨境合规成本 各国数据政策差异导致企业跨国运营合规成本高昂。WDO推动行业共识与标准互认,有望实现“一次评估、多国互认”,降低企业数据合作成本,提升政策可预期性。 (3)促进数据有序流动 WDO为数据跨境流动提供制度供给,打通堵点,带动数字贸易与科技创新。 (4)赋能全球南方国家 WDO将发展中国家数据能力建设作为重点,通过技术援助缩小数字鸿沟。数据无价值差的特性使南方国家在数字贸易中可与发达国家站在同一起跑线,放大其在存储、算力、人力成本等方面的优势。 (5)加速国内数据要素国际化 国内33家数据交易所活跃度预期将获提升,首批跨国数据产品挂牌可期。标准互认倒逼合规体系建设,具备跨境合规能力的企业优先受益,中国数据治理经验可向国际输出。 (6)推动产业生态落地 聚焦医疗、教育等场景推动项目落地,提炼可复制解决方案,促进全球数字产业协同。 6、WDO成立后,是否会改变大模型公司获取训练数据的方式?未来大模型训练数据是否会从互联网抓取转向高质量合规数据采购? WDO的成立不会立即改变大模型公司获取数据的方式,但预期将加速向高质量合规数据采购的转型。这一转型趋势在WDO成立前已在进行,核心驱动力在于互联网优质数据几近枯竭,且头部客户已将数据合规放在首位。WDO的作用主要体现在:拓宽线下高质量数据获取通道,推动数据质量与生产流程的标准互认,提升合规数据流转效率,但不会降低合规门槛。总体而言,WDO将为版权清晰、授权完整的高质量数据供需匹配提供制度性支撑。 7、海天瑞声参与WDO的背景及公司的定位是什么? 海天瑞声作为仅有的少数几家企业发起单位之一参与其中,并荣膺首届理事单位,也是AI数据领域唯一入选的企业。WDO选中海天瑞声,是基于公司深耕AI训练数据领域超过20年的积累——公司已形成覆盖数据采集、处理、标注、治理到应用落地的全链条能力体系,拥有覆盖全球300多个语种的多模态数据资源,累计服务全球上千家科技企业与科研机构。公司的定位是借助WDO平台深度参与全球数据治理体系建设:一是推动数据质量、生产流程等标准的国际互认,输出工程化、规模化数据治理经验;二是依托对WDO规则和框架的深度理解,在现有出海基础上进一步提升全球化业务拓展效率;三是作为理事单位,持续发挥产业实践优势,推动数据标准共建与生态协同。 8、请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗? 公司高度看好具身智能数据这一新兴赛道,已将其作为战略重点进行前瞻布局,并组建了专项团队加快业务落地。 从行业前景看,具身智能已被国家列为未来产业重点培育方向。当前,机器人“大脑”认知决策等核心能力仍处于发展早期,大模型泛化能力尚未成熟,规模化落地亟需海量高质量、细颗粒度的训练数据支撑,市场空间广阔。 从市场需求看,国内外头部科技企业与本体厂商已启动规模化数据采购,需求覆盖真实场景交互数据、第一人称视角数据、UMI数据、仿真数据等。与此同时,部分地方政府正积极规划“具身智能训练场”,以工程化方式生产高质量数据,赋能产业应用。 目前,公司已与国内某头部具身厂商签署真机数据采集合约,并与多家头部具身厂商、科技大厂及地方政府启动订单对接,正稳步推进样例数据方案的设计与落地,为具身智能数据业务的规模化发展蓄力筑基。 9、具身智能数据服务的需求逻辑? 答:具身智能的核心在于赋予机器人具备理解与泛化能力的‘大脑’。这不仅是代码的堆砌,而是类似大模型‘涌现’的范式变革。由于 当前仿真环境无法完美模拟物理接触与长尾场景,海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一‘燃料’,这是具身智能区别于传统自动化的根本逻辑。 10、客户为何不自己做数据,而选择外部采购? 答:数据工程是一项重人力、重流程、重管理的‘苦活累活’,并非算法厂商的核心基因。自建数据团队不仅边际成本高,且难以应对波峰波谷的弹性需求。我们定位为“具身智能行业的数据富士康”,通过规模化、标准化、可伴随客户迭代而同步迭代的整体数据供应链能力,帮助客户剥离非核心业务,使其聚焦于算法与本体研发,实现产业分工的最优解。 11、公司具身智能业务的核心竞争优势是什么? 答:三大壁垒:1)硬件驾驭能力,适配全品类一线机器人;2)大模型与算法理解+落地能力,精准匹配机器人大脑模型训练需求;3)数据工程化与交付能力,20+年数据服务积累、自研平台、全球化供应链、数据跨境合规整体解决方案,是新进入者无法短期复制的核心壁垒。 12、跨机器人硬件的数据能否复用,如何实现规模效应? 答:数据的跨本体复用确实是行业目前的痛点,主要受限于不同硬件的构型差异。但这正是我们发力的方向——我们正在探索‘通用技能数据包’的标准表达。虽然当前主要针对同系列设备,但我们的目标是构建硬件无关(Hardware Agnostic)的数据中间层,一旦打通,将实现“一次采集、多端部署”,这也是未来数据服务商最大的增值空间。 13、具身智能数据赛道能做多久,是否像智驾一样只有短期机会? 答:这是一个比自动驾驶更长、更宽的赛道。正如李飞飞教授所言,自动驾驶主要解决避障与导航,而具身智能需要解决非结构化环境下的复杂物理交互。当前我们甚至还未穷尽场景的定义,数据需求将伴随机器人进家庭、进工厂的全过程。我们定位为全行业的数据基础设施,旨在伴随行业全生命周期成长,而非短期套利。