您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [浦银国际]:大模型时代“卖铲人”,数据标注乘势而起 - 发现报告

大模型时代“卖铲人”,数据标注乘势而起

2025-04-30 赵丹,杨子超 浦银国际 匡露
报告封面

首次覆盖|互联网行业 Innodata(INOD.US):大模型时代“卖铲人”,数据标注乘势而起 赵丹首席互联网分析师dan_zhao@spdbi.com(852) 2808 6436 杨子超,CFA互联网分析师charles_yang@spdbi.com(852) 2808 6409 Innodata深耕数据标注,持续受益于AI大模型对数据的需求增长,是数据标注行业稀缺上市标的。公司客户聚焦美国大型科技企业,已覆盖“美股七巨头”中的五家,巨头围绕AI基建的资本支出扩张或带来增量。公司增长势头强劲,2024年收入增长96%,公司预计2025年收入增长40%+。我们首次覆盖Innodata(INOD.US),给予“买入”评级,目标价为55美元,潜在升幅44%。 2025年4月30日 Innodata(INOD.US) 深耕数据标注,为大模型提供“燃料”:随着大模型快速迭代,对高质量数据的需求日益增长,公司专注于数据清洗、标注,提供结构化数据支持,助力大模型持续升级。根据Grand View Research测算,2023年全球数据标注和服务市场规模达140.7亿美元,预计2024-2030年的复合年增长率为20.3%。目前,市场关于Innodata业绩增长预期的分歧主要在于:DeepSeek大模型如何影响数据标注需求;人工标注是否会被ScaleAI自动化标注取代。我们认为未来对于高质量的数据需求依然强劲,看好公司前景。 DeepSeek大模型如何影响数据需求?目前,DeepSeek通过蒸馏技术、合成数据等方式一定程度上降低了对通用数据量的需求,但对数据质量提出更高要求。高质量的结构化数据,依然是影响大模型迭代的关键。此外,DeepSeek大幅降低了模型部署成本,或推动更多垂类大模型的探索。垂类数据带来增量需求,场景更加多元化。除了科技领域,公司正积极拓展如金融、医疗等领域,或进一步打开市场空间。 人工标注是否会被ScaleAI自动化标注取代?相较于全球数据标注行业标杆ScaleAI,Innodata自动化标注能力仍有较大差距。自动化标注成为行业趋势,但人工标注短期还不能被完全取代,尤其是需要专业知识判断的领域,如医学、法律等。公司在这些领域已率先布局,具备一定行业壁垒。此外,市场整体需求强劲,两者在不同垂直领域存在一定错位竞争,我们预计公司业绩保持快速增长。 首予“买入”评级,目标价为55美元:我们看好数据标注行业持续受益于大模型推动,市场空间广阔,公司市场份额有望持续提升。首予“买入”评级,给予目标价55美元,对应2025E/2026E25x/19xP/E。 投资风险:行业需求波动;竞争加剧;监管风险;客户集中度风险。 资料来源:Bloomberg、浦银国际 目录 投资逻辑...........................................................................................................................................4深耕数据标注,为大模型提供“燃料”...............................................................................................5行业趋势:高质量数据需求日益增长...............................................................................................8DeepSeek大模型如何影响数据标注需求?...............................................................................8人工标注是否会被Scale AI自动化标注取代?.........................................................................9财务预测.........................................................................................................................................11估值分析与预测..............................................................................................................................12投资风险.........................................................................................................................................13SPDBI乐观与悲观情景假设.............................................................................................................14财务报表.........................................................................................................................................16 财 务 报 表 分 析 与 预 测 Innodata(INOD.US):大模型时代“卖铲人”,数据标注乘势而起 投资逻辑 Innodata深耕数据标注,持续受益于AI大模型对高质量数据的需求增长,是数据标注行业稀缺上市标的,我们看好公司前景,主要基于: 一、随着大模型数据需求提升,公司或将受益于行业的高速增长:公司专注于数据清洗、标注,提供结构化数据支持。随着大模型快速迭代,对高质量数据的需求日益增长,公司有望受益于数据标注和服务市场的高速增长。根据Grand View Research测算,2023年全球数据标注和服务市场规模达140.7亿美元,预计2024-2030年的复合年增长率为20.3%。 二、科技巨头资本开支扩张带来增量,公司收入增长强劲:公司客户聚焦美国大型科技企业,已覆盖“美股七巨头”中的五家。科技巨头围绕AI基建的资本支出扩张或带来增量。公司增长势头强劲,2024年收入增长96%,公司预计2025年收入增长40%+。 三、市场潜力巨大,估值有很大改善空间:目前,市场关于Innodata业绩增长预期的分歧主要在于:1)DeepSeek大模型如何影响数据标注需求;2)人工标注是否会被ScaleAI取代。我们认为高质量的结构化数据,依然是影响大模型迭代的关键,需求日益增长。DeepSeek大幅降低了模型部署和运行成本,或推动更多垂类大模型的探索。垂类数据带来增量需求,场景更加多元化。除科技领域,公司正积极拓展如金融、医疗等领域,有望进一步打开市场空间。此外,相较于全球数据标注行业标杆ScaleAI,Innodata自动化标注能力仍有较大差距,Innodata正加紧布局,提升自动化程度。自动化标注成为行业趋势,但人工标注短期还不能被完全取代,尤其是需要专业知识判断的领域,如医学、法律等。这些领域公司已率先布局,具备一定行业壁垒。考虑到市场整体需求强劲,以及两者在不同垂直领域存在一定错位竞争,我们看好公司业绩前景。 投资风险:首先,公司最大客户收入占比48%,存在一定的客户集中度风险;其次,公司仍然是基于传统的人力外包的数据标注企业,自动化水平相较于ScaleAI仍有较大差距,技术优势较弱;最后,公司当前收入体量较小,单一订单的新增或流失会对公司收入增幅或降幅带来较大波动。 深耕数据标注,为大模型提供“燃料” 深耕数据训练解决方案,为AI提供“燃料”。Innodata定位于AI数据工程领域,提供AI训练数据解决方案,包括数据采集、标注等。AI数据服务被称为“AI时代的石油”,直接受益于全球科技巨头在AI基础设施领域的巨额投入。公司业务包括Digital Data Solutions(DDS)、Synodex以及Agility三大板块,分别聚焦于数据工程、医疗数据处理和公关媒体监测领域,为客户提供多样化的数据相关服务。 资料来源:公司资料、浦银国际 资料来源:公司资料、浦银国际 Digital Data Solutions(DDS):DDS是公司的收入支柱,贡献约87%收入(4Q24)。DDS专注于提供高质量数据采集和标注服务,进行数据转换、清理和合规处理等工作,将非结构化数据处理成可用于AI分析的结构化数据。 Synodex:收入占比约3%(4Q24),主要服务于医疗信息领域,利用其专有数据模型或客户数据模型将医疗记录转换为可用数据。 Agility:收入占比约10%(4Q24),为营销传播和公共关系专业人员提供向记者和社交媒体影响者定位和分发内容的机会;监控和分析全球新闻渠道,例如印刷品、网络、电视以及社交媒体渠道。 AI大模型推动数据需求爆发。随着人工智能技术的快速发展,对高质量数据的需求日益增长。根据IDC预测,2024年全球产生约160ZB的数据量,其中大部分为非结构化数据。只有将这些数据转换为机器能够识别和学习的结构化数据格式,数据价值才能得到充分发挥,进而推动大模型的持续更新迭代。Innodata专注于收集、清洗和组织原始数据,为AI模型训练提供关键支持,处于行业的重要环节,有望受益于行业的持续增长。根据GrandView Research报告测算,2023年全球数据标注和服务市场规模达140.7亿美元,预计2024-2030年的复合年增长率为20.3%。其中,美国市场规模达42亿美元,全球占比近30%,我们测算公司市占率约5%。公司业绩增长强劲,2024年收入同比增长96%,公司预计2025年收入增长40%+,增速远高于行业,预计市场份额将持续提升。 训练数据属于人工智能产业链的基础层,是基础生产要素。训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测),通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。 数据标注借助特定软件以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。根据Cognilytica研究数据,在AI项目中,对数据相关的处理过程可占据超过80%的时间,其中数据标注环节的耗时占比可达25%。 从市场供给来看,数据标注包括企业自建以及第三方服务商。基础数据服务虽然处于行业领域的最上游,但偏劳动密集型,所以很多科技巨头及大模型企业出于成本以及规模化效益考虑,会选择第三方外包。第三方公司具备规模经济优势,能提供相对低成本、高效率的标注服务,还拥有丰富的标注经验和专业的标注人员,能够满足不同行业、不同类型数据的标注需求。客户自建团队主要解决其自身的部分数据需求,如敏感数据等。 Innodata客户集中在大型科技企业,受益于巨头AI资本支出扩张。目前,公司收入主要来自八大核心客户,其中包括美国七大科技股中的五家,以及还有另外三家大型科技公司。当前,AI“军备竞赛”火热,全球科技巨头围绕AI基础设施的投入持续飙升,或为公司业务带来增量。目前公司最大客户(“七巨头”之一)收入占比约48%。根据4Q24财报显示,该最大客户授予Innodata价值约2,40