您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[发现报告]:海天瑞声机构调研纪要 - 发现报告

海天瑞声机构调研纪要

2026-01-12发现报告机构上传
AI智能总结
查看更多
海天瑞声机构调研纪要

调研日期: 2026-01-12 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 1、公司在境外基地方面的布局计划如何? 公司于2024年整合了位于东南亚的一个超过1000人的标注基地。该基地主要提供内容审核和数据标注服务。预计2025年该基地将贡献千万级美元收入。此次布局标志着公司境外交付能力建设进入了新阶段。我们计划于2026年在东南亚地区建设第二个本地化交付基地,预计到2026年底,境外基地总人数将再新增500人左右。 该类基地建设为公司未来承接中国一线科技公司的出海业务、以及北美头部客户的定制化大型订单提供了关键的基础保障。 2、境外传统训练数据业务的驱动因素是什么? 过往多年,公司持续为境外多家头部科技大厂的全球人工智能产品的本地化及出海提供关键的多语种、多模态数据支撑。随着全球化AI应用场景的快速落地,市场对高质量、多语种、场景化训练数据的需求持续提升。具体而言,驱动需求的产品线主要包括但不限于: (1)多语种语音识别数据:服务于智能助手、客服机器人等产品的全球化部署与口音适配。 (2)多语种手写体数据:支持金融票据识别、表单处理、手写笔记数字化等应用在不同语言文字区域的准确理解。 (3)多语种文本数据:涵盖自然语言理解、内容审核、机器翻译等任务所需的多语言文本语料库。 公司凭借在多语言、多模态数据处理领域长期积累的全球供应链管理能力和技术know-how,正在持续获取并交付此类项目,从而推动境外数据业务的快速发展。 3、政府类业务布局和进展如何? 目前,我们与地方政府的合作已形成清晰的模式:一是基于地方特色数据(如农业、文旅)建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。在项目进展方面,公司已与成都、长沙等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特、保定、彭州等地方政府已启动具体项目推进。今年第三季度,公司已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。 4、请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗? 公司非常看好具身智能数据领域作为高增长的新兴赛道,已组建具身智能数据专项团队开展相关业务,并开始在全国多个城市启动专项公司 的选址。 一方面,国家已将具身智能列为未来产业予以重点培育。另一方面,控制机器人认知决策等“大脑”仍处于发展早期,大模型在泛化能力上仍有不足,因此想实现规模化落地将依赖大量高质量、细颗粒度的训练数据,因此这一领域市场潜力巨大。当前,国内、外多家头部科技企业已启动具身智能数据的规模采购,需求涵盖机器人在真实场景下的交互数据、构建仿真世界模型所需数据等。同时,部分地方政府也在积极规划建设“具身智能训练场”,旨在工程化生产高质量具身数据,赋能科研与产业应用。目前,公司已与多家机器人本体厂商展开合作,并与若干家头部科技大厂及地方政府启动订单需求对接,正在推进相关样例数据交付与训练场方案的设计与落地,为下一步具身智能数据业务的加速发展奠定坚实基础。 5、请介绍一下公司在训练数据领域的竞争优势 经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力主要体现在: (1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探 索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。 公司全方位做好数据风险管控工作,通过了业内重要的 ISO/IEC 27001体系认证、ISO27701个人隐私信息安全管理体系认证,形成了具有自身特色的数据安全与隐私保护整体解决方案。公司已获得了北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为 公司智能驾驶采集业务拓展奠定基础;同时开展信息系统等级保护测评工作,获得等保三级备案证明;目前,公司符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求,获得了业务领域合作客户的高度认可。 6、客户是否会自建数据团队? 有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。 7、训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何? 定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数 据产品通常以单个数据集为单位进行定价,定价比较灵活。 价格走势主要由市场的供需关系决定。如果某类数据为市场稀缺数据,例如具有较高进入壁垒的多模态、虚拟人等前沿类数据需求、或传统业务里的多语种数据,都可在一定时间内维持较高的溢价水平。但在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况。因此,未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争带来的过度消耗。