您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [艺恩]:全球大模型数据市场白皮书 - 发现报告

全球大模型数据市场白皮书

信息技术 2026-06-03 - 艺恩 机构上传
报告封面

The Global Data Market for Large Models 当算力见顶,数据成为AI时代的价值坐标。本白皮书系统呈现全球大模型数据市场的规模、价值链、资本、合规与多模态前沿。 艺恩数据·ENDATA·NEEQ871430 2026年版 四个章节,读懂数据市场 数据,正成为大模型时代的稀缺生产要素 进入2025-2026年,随着算力竞赛逼近边际、公开互联网语料趋于枯竭,数据已从「可廉价获取的原料」转变为决定模型上限的稀缺生产要素。市场的核心命题正由「数据规模!转向「数据质量、专业度与合规性」。 2026-32 15亿sAnthropic版权和解额一一美国史上最大版权和解 143亿s Meta入股数据公司ScaleAl金额,估值达290亿美元 EpochAl测算的公开人类文本语料耗尽窗口(中位约2028) 全球AI训练数据相关市场年复合增速区间(多家机构口径) 三个结构性信号 ①峰值数据逼近一一公开语料趋于枯竭,价值向高质量、专家级、合规与合成数据迁移;②资本空前涌入一一数据与专家公司估值集体升,内容授权走向规模化;③合规成为护城河一一诉讼频发叠加欧盟透明度义务,合规数据获显著溢价。 本白皮书为对外发布的行业研究,不构成投资建议;前瞻性表述以「预计/预测」标识,完整来源见末页。 01 PARTO1·MARKET&INFLECTION 市场与拐点 规模口径分歧·增速共识·峰值数据理论 狭义口径,显著低估真实市场 常被引用的「AI训练数据集」狭义口径仅约28-32亿美元(2024-25),只统计打包数据集+标注软件。但本白皮书采用广义口径(B=数据集+采集标注+RLHF/专家数据+合成数据:自下而上测算2024约60-90亿、2025约100-160亿美元(毛口径买方支出)。 为何狭义口径失真 钱在服务里:真实支出多在标注与RLHF/专家数据服务,而非打包数据集。三家即超全市场:Scale(约20亿)+Surge(约14亿)+Mercor(约7.6亿)2025毛收入合计约42亿美元,已超「训练数据集」狭义全球值。■口径关系:训练数据集C采集与标注C数据服务;狭义是子集而非全貌。 各细分赛道,高速增长共振 ANNOTATIONTOOLS DATACOLLECTION&LABELING SYNTHETICDATA 合成数据(最快) 标注工具 采集与标注 2025:32亿→2035:343.8亿美元 2023:2.18亿→2030:17.88亿美元 2024:37.7亿→2030:171亿美元 CAGR35.3%GVR CAGR 28.1% CAGR 26.8% CAGR 28.4%GVR GVR·全行业 Precedence 大厂入局合成数据 增长的底层逻辑 NVIDIA于2025年以约3.2亿美元收购合成数据公司Gretel.ai,标志头部算力厂商正式将合成数据纳入战略版图。 StanfordHAl《2025AlIndex》:训练计算量每5个月翻倍,数据集规模每8个月翻倍一一数据需求的指数级膨胀,是各赛道高增速的根本驱动。 公开语料枯竭,价值范式转移 EpochAl(经ICML2024同行评审)测算:可用人类公开文本存量约300万亿token,若当前趋势持续,训练数据集规模将在2026-2032年间与之持平,中位数预测约2028年。 「数据墙」三重证据 ■存量有限分层。CommonCrawl约130万亿、索引网络约510万亿token,高质量部分远小于此。 过度训练加速耗尽。Llama3过度训练约10倍:若转向100倍,数据触顶更早。 多轮训练放大3-15倍有效存量,但难以根本解决枯竭。 从「更多数据」至到「更对的数据」 四条出路 行业领袖判断 「人类知识的累积总和,已基本在AI训练中被耗尽大体上去年就发生了。」ElonMusk,2025/1(viaTheGuardian) 多模态扩容。引入图像/视频/音频可使训练数据约增3倍(Epoch)。合成数据。以模型生成数据反哺训练,成为缓解数据墙主路径。数据效率与策展。更少但更优质数据获更强能力,「数据中心化AI兴起。高质量/专家数据。通用语料见顶,稀缺的专业、垂直、合规语料价值凸显。 真正的问题 「如果训练模型的最佳方式是生成一千万亿token合成数据再喂回去,那会很奇怪」核心是「如何从更少的数据中学到更多」。 SamAltman,2024/6(述要,viaTheDecoder) 本章要点 公开人类文本趋于枯竭(中位约2028).迫使行业从「数据规模」转向「质量、专业度与多模态扩容」一一这是后续所有市场变化的根本动因。 02 PARTO2·VALUECHAIN&CAPITAL 价值链与资本 八层结构·质量溢价·估值狂飙与内容授权 八层结构,价值层层递进 核心规律 越靠近「专家级、多模态、可验证」的一端,单位价值越高、可复制性越低。当通用网络语料见顶,价值链上半部(③-③)的稀缺溢价持续升。 70%+ 业界观察:模型性能提升中归因于数据质量(而非架构)的比例(Technavio,数据中心化Al) 同一份标注,价差可达数十倍 估值狂,资本以真金确认数据稀缺 头部交易 ScaleAl:2025/6Meta投资143亿美元获49%无投票权股份,估值290亿。SurgeAl:2025/7洽谈以≥250亿美元估值融资;ARR至8月达14亿美元。■Mercor:2025/10估值100亿,较2月翻5倍;管理3万+专家。 连锁反应:中立性即资产 Meta入股ScaleAl后,因数据机密性顾虑,Google、OpenAl、xAl等削减或暂停与Scale的合作为Surge、Mercor让出空间印证数据供应行业「中立性」本身即核心资产。 来源:Bloomberg、CNBC、TechCrunch、Sacra、PitchBook。 从「抓取」到「付费授权」 当公开语料枯竭、版权诉讼频发,模型厂商转向授权协议。据Media&theMachine追踪,早期34笔交易总承诺约29.2亿美元(约8.16亿/年)。 Reddit:数据资产价值重估 据Reddit2025O2股东信引用Profound(分析40亿+次A/引用):在截至2025/6/30三个月中,Reddit占全部Al引用3.11%,为Wikipedia(1.35%)两倍多一一成为Al模型第一大被引来源,推动「固定费一使用量一→动态定价」演进。 一张图看懂全球数据玩家版图 美国前沿数据公司估值已达软件级,中国玩家则多为「盈利但体量小」的上市/挂牌企业。 美国·前沿数据公司 价值前沿,正向』「专家×多模态」迁移 三大梯队 ■价值高地(右上):Surge、Mercor、Scale、Turing、Toloka—一以专家人工判断与多模态数据获取软件级溢价。 ■平台/工具(中部):Labelbox、Snorkel程序化标注与评测工具。 ■传统众包(左下·承压):Appen、iMerit:通用单模态标注被自动化与合成数据挤压。 中国厂商卡位 海天瑞声(语音/多模态·已上市)、澳鹏中国/曼孚科技(自动驾驶·标注)、艺恩(垂类数据)正集中卡位多模态与垂直象限,与全球价值迁移方向一致。 四条赛道,四人范式样本 ④垂直/具身多模态智元AgiBotWorld百万真机片段开源百万级真机数据集,长程任务规模约为Google Open X-Embodiment 的10倍、场景覆盖100倍;中国具身数据供应链成型。 ①通用标注/RLHF ②专家/前沿数据 ③内容授权 Surge Al / MercorARR14亿/4.5亿$ Reddit Scale Al 营收3年×11 AI 引用 #1 18个月市值至~390亿$;Go0gle6000万/年+OpenAl7,000万/年;引用量达Wikipedia3倍,首创动态定价。 2021年8,000万→2024年8.7亿美元;Meta143亿入股引发中立性裂变,客户外流反成对手红利。 Surge 零融资自举至超10亿营收:Mercor3万专家、日付150万S、时薪~85S一瞄准5万亿知识劳动市场。 范式启示 价值正从「规模化通用标注」流向「专家判断、独家授权与具身多模态」。谁掌握稀缺合规数据,谁就掌握定价权。 03 PARTO3COMPLIANCE®ULATION 合规与监管 版权诉讼·出海风险·欧盟AI法案 从诉讼频发,到「合规即护城河」 截至2025年10月,全球追踪到的AI版权诉讼达51-166起。法院核心分野正在形成:「合法获取」可能构成合理使用,「盗版内容」则明确不被宽有一一这直接抬高合规数据溢价。 核心启示 美国已有3位法官就AI训练合理使用裁决(2支持训练方、1反对),均强调训练「高度转化性」,但严格区分内容获取来源是否合法。合规由此从「成本项」转为「定价 海外视频版权风险·MiniMax/海螺案 中国AIGC版权裁决·态度已确立 Disney等v.MiniMax ■北京互联网法院李某案(2023/11):首例AI生成图片版权案,认定可版权性,判赔5,000元。■广州互联网法院奥特曼案(2024/2):全球首例GenAl输出侵权裁决,判赔1万元,要求关键词过滤。杭州互联网法院LoRA案(2024):认定平台帮助侵权判赔3万元;区分训练与生成阶段责任。 ■原告:迪士尼、环球、华纳兄弟探索等12家(2025/9/16,加州中区联邦法院)。■指控:大规模盗用版权角色:复诉引述海螺自标榜「口袋里的好莱坞工作室」。■诉求:每件作品最高15万美元法定赔偿+禁令。■最新:2026/5/23法官驳回撤案动议,进入证据开示(Reuters)。 训练数据透明度,成为硬约束 欧盟《Al法案》2024/8/1生效.GPAl义务2025/8/2适用2026/8/2全面适用。其对训练数据的透明度要求,正把「合规」从自愿变为法定义务。 CODEOFPRACTICE ARTICLE53(1)(d) TRANSITION 训练内容摘要披露 GPAI行为准则 过渡安排 2025/7/10发布,含透明度、版权、安全三章;系统性风险门槛1025FLOP(全球约5-15家公司适用)。 2025/8前已上市模型,有至2027/8/2宽限期;模板自2025/7/24起强制使用。 须按AlOffice模板公开训练内容「充分详细摘要」(含受版权数据)披露数据类型、来源及公开数据集前10%域名。 合规如何转化为定价能力 诉讼频发、监管趋严下,可审计、可溯源的合规授权数据获结构性溢价。内容/肖像/音乐版权的多层授权链条与可披露来源证明,已成为高端供应商区别于「爬虫式」供给的核心壁垒一一合规转化为议价筹码。 来源:EuropeanCommission、JonesDay、Skadden、WilmerHale等。 04 PARTO4·GLOBALUS-CHINAOUTLOOK 全球格局·中美双核·未来 多模态前沿·中美生态·趋势判断 最稀缺、溢价最高的层级 当文本语料见顶,竞争前沿转向视频与多模态。视频生成与世界模型对「高质量、合法授权、富标注」语料的渴求,使这一层级成为整个数据市场中最稀缺、单位价值最高的部分。 视频生成:竞争白热化 4D/多视角空间数据与世界模型 世界模型(NVIDIA定义:理解真实世界动态、含物理与空间属性的生成式A)面临「配对多视角数据严重稀缺」。具身数据「稀缺、采集困难、高维」,被视为机器人达到「GPT时刻」的关键瓶颈。 OpenAlSora2、GoogleVeo3、快手可灵、Vidu、海螺、Runway同台竞技。GoogleVeo的4K真实感与原生音频优势,直接来自YouTube训练数据一一印证独家高质量视频语料的决定性价值。 「黄金数据」稀缺