您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[发现报告]:海天瑞声机构调研纪要 - 发现报告

海天瑞声机构调研纪要

2025-11-05发现报告机构上传
AI智能总结
查看更多
海天瑞声机构调研纪要

调研日期: 2025-11-05 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 1、公司三季度收入增长的原因是什么? 2025年第三季度公司营业收入增长主要得益于境内、境外业务的协同发力。在境内市场,随着文生视频技术在内容创作、影视制作、广告营销等领域的深入应用,行业对生成视频在语义一致性、画面准确性等方面的要求持续提升,进而推动了对高质量多模态训练与精细化评测数据的旺盛需求;与此同时,公司在政企侧的业务布局初见成效,多语种文本类业务开始持续贡献收入,共同带动境内业务收入大幅增长。 在境外市场,一方面受益于海外科技巨头持续推进以智能终端为代表的国际化战略,其对高质量、多语种的OCR识别与多语言文本理解数据的需求增长强劲;另一方面,公司去年在东南亚部署的本地化数据交付体系已进入稳定运营阶段,成功开拓了面向海外客户的定制化数据服务市场,为公司带来了持续增长的海外业务收入。境内外业务的共振发力,共同推动了公司三季度整体收入的提升。 2、25年第三季度公司的收入增速相较于前几个季度增速略有下滑,请问主要原因是什么? 三季度收入增速放缓,主要系部分大额政府项目收入节点确认影响。目前,相关项目均正常履约、推进,预计相应收入将在第四季度或期后 陆续确认。因此,将带动四季度的单季度收入增速提升,并有望带动公司2025年全年收入实现较好增长。 3、公司第三季度毛利率为何同比出现下滑? 主要是第三季度,毛利率较高的标准化数据集产品收入占比下降,导致公司整体毛利率水平出现一定比例下滑。 4、请问目前公司政府类业务进展如何? 目前,我们与地方政府的合作已形成清晰的模式:一是基于地方特色数据(如农业、文旅)建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。 在项目进展方面,公司已与成都、长沙、保定等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特地方政府已启动具体项目推进。今年第三季度,公司已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。 5、公司在菲律宾基地收入持续增长,请问这块业务未来的规划如何?是否会考虑在海外拓展其他类似基地? 公司基于在东南亚基地的成功经验,下一步会考虑极规划在东南亚其他地区拓展类似基地。通过新基地拓展,一方面,持续为公司带来稳定 的收入和利润增量;另一方面,将通过拓展的基地进一步推动海外定制业务的发展,并重点开拓高端数据标注市场。这一布局将有助于我们更好地服务全球客户,提升在国际市场的竞争力。 6、请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗? 公司非常看好具身智能数据领域作为高增长的新兴赛道,已组建具身智能数据专项团队开展相关业务,并开始在全国多个城市启动专项公司的选址。 一方面,国家已将具身智能列为未来产业予以重点培育。另一方面,控制机器人认知决策等“大脑”仍处于发展早期,大模型在泛化能力上仍有不足,因此想实现规模化落地将依赖大量高质量、细颗粒度的训练数据,因此这一领域市场潜力巨大。 当前,国内、外多家头部科技企业已启动具身智能数据的规模采购,需求涵盖机器人在真实场景下的交互数据、构建仿真世界模型所需数据等。同时,部分地方政府也在积极规划建设“具身智能训练场”,旨在采集高质量数据,赋能科研与产业应用。 目前,公司已与多家机器人本体厂商展开合作,并与多家头部科技大厂及地方政府启动订单需求对接,正在推进相关样例数据交付与训练场 方案的设计与落地,为下一步具身智能数据业务的加速发展奠定坚实基础。 7、DeepSeek-OCR技术的普及,会给海天业务带来什么样的变化? 我们初步判断,将驱动训练数据行业发生以下变革: (1)多模态解决方案需求提升 传统的海量纯文本语料需求,逐步转向高质量的图文对数据需求,例如,需要数据服务商处理复杂文档图像、图表、公式并赋予其语义理解的高质量数据集。 (2)数据质量与专业深度提升 数据的价值将不再仅由“Token数量”决定,而是由其信息密度、标注精度和跨模态关联强度决定。在诸如金融、医疗等专业表格、图片、公式、文字并存的垂域,深度的、带有行业知识的标注数据将构筑起新的竞争壁垒。 总体而言,DeepSeek-OCR技术如若普及开来,预计将会进一步驱动数据标注需求向技术密集的多模态数据、专家数据方向升级,海天也将持 续做好研发、生产两端的投入,力争在以视觉压缩和中高阶文档理解为基石的新范式中占据先机。 8、请介绍一下公司在训练数据领域的竞争优势 经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力主要体现在: (1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至2025年6月末,公司已积累近180个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。 公司全方位做好数据风险管控工作,通过了业内重要的 ISO/IEC 27001体系认证、ISO27701个人隐私信息安全管理体系认证,形成了具有自身特色的数据安全与隐私保护整体解决方案。公司已获得了北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司智能驾驶采集业务拓展奠定基础;同时开展信息系统等级保护测评工作,获得等保三级备案证明;目前,公司符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求,获得了业务领域合作客户的高度认可。 9、与客户自建数据团队相比,海天的优势是什么? 相较于客户自建团队,海天瑞声历来都是对接众多大型科技公司、头部人工智能企业、科研院所等,获得的信息是广泛的,项目经验丰富,同时积累了大量的know-how,对数据的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能有效降低成本,为客户提供更高性价比的训练数据产品/服务。 10、公司的业务是否存在规模效应? 公司业务是存在规模效应的,一方面随着公司在研发方面加大投入,自研平台的能力逐步提升,可以赋能数据处理过程中的人机协作朝着更加智能化的方向前进,这就使得公司进行更大规模的数据生产成为可能。同时,数据产品的积累、平台以及工具的研发,在公司业务规模逐渐上升的情况下,相关的研发费用、管理费用将被摊薄; 从成本端看,数据生产的成本还有很大的下沉空间,对于成本控制我们会在两方面进行持续投入:一方面是继续加大技术投入,采用更为合理的人机协同比例完成数据处理任务,降低人员投入,提高处理效率;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。此外,数据集产品一直是我们公司所坚持的重点方向,公司开发大量通用型、复卖率高的标准化产品数据集,反复给公司带来利润,也能实现训练数据产品的规模化效应。