海天瑞声:ScaleAl和公司近况解读会议内容: 近期有外媒报道,Meta可能向ScaleAl投资数十亿至百亿美金,这可能是Meta迄今为止最大的外部AI投资,Meta自2023年以来持续加大对AI的投入,全年AI投资规划上限已提升至约700亿美金。 ScaleAl成立于2016年,是OpenAl早期数据标注和治理的核心供应商之一。其客户包括OpenAl、微软、Meta、英伟达和美国国防部,营收从去年约8.7亿美金有望增长至今年约20亿美金,估值也从去年的138亿美金可能在此轮融资中至少翻 倍。 分析认为,Meta投资ScaleAl可能基于两点:一是高质量数据处理对模型训练 (包括预训练、后训练、强化学习)依然至关重要:二是未来3—5年Agent(智能体)是确定趋势,其有效性高度依赖数据。数据是决策的基础,在A应用爆发(如代码生成)和Agent落地过程中,数据的积累和处理是关键瓶颈。 海天瑞声观点: 交为知ScaleAl此次融资规模远超预期。其高速增长的驱动力主要来自两方面: 1.AI应用普及与多模态需求激增:A单位成本下降(如Sora等模型的出现)使得更多机构有能力构建自身AI体系,生态繁荣度提升。同时,大模型从LLM转向多模态,带来文本以外视觉、语音数据需求的激增。海天瑞声自身业务结构也反映了这一趋势,2024年Q1视觉业务收入占比首次达到49%(语音40%,文本11%),逆转了以往语音占主导的局面。多模态交互场景(如智能驾驶依赖语音)和垂直行业(如医疗、法律、金融)的结构化数据需求也在快速增长. 2.美国军方和政府大额订单:ScaleAl近年高速增长的最大驱动力来自美国军方和政府订单,保守估计,其2024年约20亿美金收入中,一半可能来源于此,其业务模式已超越传统数据标注,转变为向军方、政府及大型科技客户提供“数据生产线”(平台+专家团队)的本地化部署和定制化服务,解决其A能力不足和数据敏感性问题。这种模式带来了极高的客户粘性、持续的大额订单和高毛利。例如,其拳头产品“Donut平台”能基于开源大模型进行定制化微调和训练部署。相比之下,海天瑞声目前尚无军方订单,主要受限于国内资质获取难度和体制差异。 海天瑞声近况与策略: 1.业务高速增长:2023年收入同比增长40%,2024年Q1同比增长72%。增长动力包括多模态需求、垂直行业数据需求以及新拓展的政企业务。 2.业务链拓展(国内): 政企业务(Q1新增):参与国家级数据标注基地建设和地方数据要素产业化项目。模式通常为“3+1”:地方国资平台(资源整合)、当地运营商(如移动,客情与集成)、海天瑞声(专业数据服务)合作,提供数据治理、数据标注、平台本地化部署 (可信数据空间);可选项是结合地方职教资源建设数据标注基地。此业务受益于央企“AI+”行动。数据要素产业化政策及地方产业升级需求,预计下半年产生收入。 与央企合作深化:受益于股东中国移动的“源头联动”机制,海天瑞声获得了来自移动体系及其他央企在AI模型训练数据方面显著增长的订单。 3海外扩张: 。2023年近50%收入来自境外(标准化产品为主),境外市场规模估计为国内的5-6倍。 通过并购整合了菲律宾约1500人的BPO(业务流程外包)交付基地,具备英语和部分西班牙语能力,成本约为国内的1/3到1/4,交付效率高。该基地已承接中国社交媒体公司的海外内容审核等业务,并开始贡献收入和利润。目标是通过此基地补齐海外定制化服务能力短板,未来争取承接美国大型科技客户的定制化订单,规避潜在的地缘政治风险。 4.研发与竞争力:持续投入AI辅助标注、合成数据、具身智能相关数据等研发,以有限的全职员工(约250人)支撑大规模项目交付。核心竞争力在于服务多元化客户积累的丰富数据现象处理经验,以及合规的数据获取方式(定向采集与版权授权,非网络爬取)。 行业格局看法: ·客户自建数据团队主要处理技术/商业敏感度高、规模不大的需求,与海天瑞声服务形成差异化。海天瑞声服务于全球超1100家客户(年活跃数百家),处理数据的多样性、规模和经验远超单一客户团队,且常接手客户自建团队处理未达标的项目。 ·数据来源结构在变化:开源数据集消耗殆尽:网络爬取数据面临日益严格的版权合请,用作其规风险;外采版权清晰数据的需求在增长(如海天瑞声的模式),这对公司构成客观利好。 总结: Meta对ScaleAl的大额投资再次印证了Al数据行业的价值。ScaleAl的发展路径(尤其政军大单和平台化服务)为海天瑞声提供了借鉴。海天瑞声正抓住国内 AI+、数据要素产业化以及全球多模态、Agent发展的机遇,通过拓展政企业务、深化央企合作、布局海外产能(尤其定制化能力)、持续投入研发来把握行业红利,并致力于将良好的行业发展势头转化为公司业绩体现。