调研日期: 2024-12-24 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 1、公司前三季度收入增长的原因是什么? 主要是受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。 2、今年开始,是否有新的应用方面的数据需求? 我们观察到在IoT硬件厂商的端侧应用中,数据需求呈现一些新的共性特点,包括但不限于语音转写、文档修饰、改写、生成摘要、短信自动回复、图片和视频自动处理等。此外,办公场景中的数据需求也在增加,例如通过OCR技术改进财务办公类应用的发票处理方面的数据需求等。 但与此同时,我们也看到,目前AI应用发展正处于早期,AI应用带来的数据需求规模以及释放节奏仍有待观察、验证;同时,公司也需要时间迭代、升级数据服务能力,来适应市场需求的快速变化。所以请广大投资者务必理性对待行业以及公司发展,注意投资风险。 3、智能终端的AI agent出来之后,对数据需求有什么变化? 智能终端侧的AI agent有望成为继智能驾驶之后又一个重要的AI落地场景,预期会带来新型的数据需求。首先,智能终端agent需要能够处理和理解来自终端场景的多样化数据,因此需要获取例如终端设备中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和多风格语音数据的进一步需求。 4、大模型的数据源是否面临枯竭的风险? 在垂直场景中,许多数据并不在互联网上,需要通过与众多垂域场景的数据持有方开展合作进行定向采集获得。过往近20年的创业发展历程中,海天瑞声在这方面积累了丰富的技术、资源、经验优势。此外,随着中共中央办公厅、国务院办公厅近期出台了《关于加快公共数据资源开发利用的意见》,我们相信国内公共数据资源领域的开发利用进程也将加速,预计将为AI训练提供新的数据来源。 5、海天瑞声在海外的业务布局情况如何? 为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。 6、标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择? 区别:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。 客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。产品+服务的组合一直是公司向市场提供的综合解决方案,是一个整体,服务于不同客户的不同研发阶段需求,其收入贡献比例在各年间也呈现较为一致的趋势。而产品+服务带来的数据积累,也哺育了公司的数据处理平台和相关算法不断提升,努力达到数据处理场景下的行业最优。