您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:AI数据领军企业,全球化布局打造第二成长曲线 - 发现报告

AI数据领军企业,全球化布局打造第二成长曲线

2025-06-22王紫敬东吴证券L***
AI智能总结
查看更多
AI数据领军企业,全球化布局打造第二成长曲线

国内AI训练数据解决方案领军企业:海天瑞声是AI数据行业首家科创板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。董事长和实控人贺琳曾任职于中国科学院声学研究所,管理层技术背景强。中移投资是海天瑞声首发前股东之一,公司持续与中国移动保持紧密战略协同。公司业务主要涵盖智能语音、计算机视觉、自然语言等方向。2024年,大模型加速促进收入修复,高毛利产品收入占比提升带动盈利质量改善。2024年公司营收2.37亿元,同比增长39%,归母净利润0.11亿元,扭亏为盈。 数据标注产业迎来政策催化,大模型加速成长。2025年1月,国家发展改革委等4部门发布《关于促进数据标注产业高质量发展的实施意见》,提出到2027年,数据标注产业规模大幅跃升,年均复合增长率超过20%。 大模型驱动数据需求剧增。scaling law证明了通过预训练使用更多的数据和算力,能够让AI模型的性能大幅提升。大模型提升对高质量专业数据集需求,对数据集需求正从“通用知识”向“专业知识”延伸拓展,带动数据标注市场需求,根据中商情报网,2025年中国数据标注市场规模有望突破100亿元。目前市场以品牌数据服务商和需求方自建团队为主,市场集中度有所提升。 从Scale AI看海天瑞声的成长曲线。美国Scale AI专注于为人工智能和机器学习应用提供高质量的数据标注和管理服务。2024年Scale AI以138亿美元的估值完成了一轮10亿美元融资,英伟达、亚马逊、Meta、英特尔等科技巨头纷纷入局。公司主要服务大厂和政府客户,外包标注团队,并加强自动化标注水平,陆续斩获上亿美元美国国防部大单,由数据标注服务深入到AI模型应用落地。 海天瑞声:全球化布局,加强政府和产业合作。2024年,公司通过在新加坡投资设立控股公司的方式拓展海外首个自主可控的数据交付基地,并积极拓展智能终端等领域海外客户,2024年公司境外收入同比增长89.53%至1.14亿元。公司持续深化政企合作,已经和河北保定、湖南长沙等地政府合作成立合资公司,布局数据标注基地全周期运营,并发布了DeepSeek行业智能体解决方案,从数据标注拓展AI应用落地,打开成长新空间。 盈利预测与投资评级:高质量数据集是人工智能发展的基础,公司是A股稀缺的专注提供AI训练数据解决方案的领军企业,未来有望持续获得互联网、央国企等客户订单,深度受益于AI大模型开发迭代和应用落地,我们预计公司2025-2027年营收分别为3.45/4.83/6.44亿元,归母净利润分别为0.32/0.56/0.91亿元,首次覆盖,给予“买入”评级。 风险提示:政策推进不及预期,行业竞争加剧,项目回款不及预期,研发进展不及预期。 1.国内AI训练数据解决方案领军企业 AI训练数据解决方案提供商。海天瑞声成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家科创板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,覆盖全球超200个主要语种及方言。 图1:海天瑞声发展历程 管理层技术实力强,中移投资持续赋能。公司股权结构相对稳定,董事长贺琳直接和间接共持有公司约24%的股权,为公司创始人和实控人。贺琳女士毕业于北京大学,曾任职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,先后参与了“汉语人-机语音对话系统工程”、“汉语语音参数合成”等国家自然科学基金重点项目、国家八六三计划智能计算机主题项目和中国科学院“八五”重大项目。现任总经理李科毕业于清华大学,获得信息与信号处理专业硕士学位,曾任IBM中国技术开发中心软件工程师,管理层技术实力强劲。中移投资是海天瑞声首发前股东之一,公司持续与中国移动保持紧密战略协同。 图2:海天瑞声股权结构(截至2025年4月) 公司业务按照训练数据类型,分为智能语音、计算机视觉、自然语言等。盈利模式包括以下三类: 1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。 2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。 3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及少量硬件销售收入。以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。 图3:海天瑞声产品服务矩阵 图4:训练数据生产过程示意图 大模型加速促进收入修复,高毛利产品收入占比提升带动盈利质量改善。2022年,受益于车厂大力发展智能驾驶,计算机视觉业务收入同比有154%增长,2023年,受到境外部分客户阶段性裁员、业务方向及研发节奏周期性调整影响,以及数据出境相关法规落地实施的阶段性影响,境内部分客户预算阶段性减缓,行业内竞争加剧,导致收入同比下滑。2024年,大模型技术加快发展,国内外大厂加大对多模态数据投入,以支撑在AI终端、内容生成等领域的应用,自然语音、自然语言需求同比显著增加。大模型促进了对独特数据集产品的需求,公司高毛利的数据集产品收入占比提升,驱动整体毛利率增加,盈利质量改善,2024年公司营收2.37亿元,同比增长39%,归母净利润0.11亿元,扭亏为盈。 图5:公司2021-2024年各业务收入(单位:百万元) 图6:公司2021-2024年各业务毛利率 图7:公司2021-2024年营业收入及同比增速 图8:公司2021-2024年归母净利润 2.数据标注产业迎来政策催化,大模型加速成长 政策促进数据标注产业高质量发展,目标到2027年产业规模CAGR超过20%。 2025年1月,国家发展改革委等4部门发布《关于促进数据标注产业高质量发展的实施意见》,提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态,构建创新要素聚集、产业链上下游联动、区域协同发展的新格局。 数据标注七大试点城市快速推进,带动数据标注行业相关产值超过83亿元。2024年5月,国家数据局在第七届数字中国建设峰会上公布成都、沈阳、合肥、长沙、海口、保定、大同为全国数据标注试点城市,截至2025年3月,已形成医疗、工业、教育等行业的高质量数据集335个;赋能121个国产人工智能大模型研发;引进和培育标注企业223家;标注从业人员达5.8万人;带动数据标注行业相关产值超过83亿元。 图9:数据标注七大试点城市 大模型驱动数据需求剧增。数据是训练AI能力的“原料”之一,大模型的“涌现”能力出现和海量的训练数据密不可分,scaling law作为过去两年多时间里AI大模型赛道风起云涌的基础,证明了通过预训练使用更多的数据和算力,能够让AI模型的性能大幅提升。根据AI基础数据服务厂商LXT对322家有AI项目经验的美国企业的调研,训练数据的资金投入占这些企业的AI整体建设投入的15%。 图10:使用Scaling Law在HumanEval上准确预测GPT-4的通过率 在2025年第八届数字中国建设峰会上,由国家数据局指导的全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集。一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用。 一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。 一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。 AI大模型对数据集需求正从“通用知识”向“专业知识”延伸拓展,提升数据标注门槛,带动数据标注市场需求。随着大模型在各行业落地,对于如医学、编程、竞赛等专业数据集的需求大幅增加,而覆盖全面或行业细分的数据集建设往往需要大量的时间、精力,也需要对于数据供应市场的深入了解,通过简单的爬虫或者购买公开数据集难以满足需求,因此大模型厂商,或者应用落地方往往会寻求数据标注专业厂商的合作。 根据中商情报网数据显示,2023年中国数据标注市场规模达60.8亿元,较上年增长19.7%。据预测,2025年中国数据标注市场规模有望突破100亿元。 图11:2021—2025年中国数据标注产业市场规模趋势 品牌数据服务商和需求方自建团队为主,市场集中度提升。传统AI数据标注市场竞争激烈,而大模型、智能驾驶等新兴项目体量较大需要较强的综合服务能力,智驾部分客户回款周期较长,较多中小数据服务商已退出市场;在大模型、智能驾驶等新兴AI算法及对应标注方式快速迭代时期,为保障信息安全,较多需求方通过自建团队满足数据服务需求,然而随着大模型对专业知识需求量增加,大厂自建团队覆盖多元化的垂类深度数据的难度和成本陡增,品牌数据服务商通过深度挖掘客户需求,可以打造高质量的垂类标准化数据集,竞争优势凸显。 未来随着品牌数据服务商的数据版权的丰富、专业能力的提升、标注方法的成熟,品牌数据服务商将承接更多的数据服务需求。据艾瑞调研统计,2023年中国AI基础数据服务行业的CR4(前四大企业的市场份额)为22.0%,市场仍较为分散。相比2019年14.3%的CR4,中国AI基础数据服务市场在2023年的集中度显著提升。 图12:2023年中国AI基础数据服务供给方的市场份额 3.从Scale AI看海天瑞声的成长曲线 3.1.Scale AI:从数据标注到应用落地,服务大厂和政府客户 从单一数据标注到端到端解决方案。美国Scale AI由华人创始人Alexandr Wang和Lucy Guo创立,专注于为人工智能和机器学习应用提供高质量的数据标注和管理服务。 Scale AI前身是Scale API,一个提供按需人工服务的平台,帮助企业完成内容审核、数据提取、预约安排等任务。企业只需一行代码,就能调用人工劳动力完成算法无法处理的任务。不久之后,Scale AI发现自动驾驶行业对于数据审核和标注的需求量非常大,公司逐步形成了以数据标注为核心,同时帮助客户收集、清理、标注和管理大规模高质量数据,优化机器学习模型的业务模式。随着技术的发展,公司从单一的数据标注服务转型为提供端到端的AI解决方案。产品主要分成4大类:数据标注(Annotate)、管理和评估(Manage & Evaluate)、自动化(Automate)和合成(Generate)。 图13:Scale AI主要产品 2024年5月,Scale AI以138亿美元的估值完成了一轮10亿美元融资,投资方涵盖20多家机构和个人,英伟达、亚马逊、Meta、英特尔等科技巨头纷纷入局。2025年6月,Scale AI宣布已获得一笔来自Meta Platforms的重大投资,相应投资令该公司估值达到290亿美元,在获得投资的同时,该公司联合创始人兼首席执行官Alexandr Wang将加入Meta。Meta此次支付了143亿美元,取得Scale AI约49%的股权,这是Meta史上第二大交易,仅次于2014年