行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

全球大模型数据市场白皮书

信息技术 2026-06-03 - 艺恩机构上传

核心观点与关键数据

公开语料趋于枯竭，价值范式转移

公开人类文本存量约300万亿token，预计2028年耗尽，迫使行业从「数据规模」转向「质量、专业度与多模态扩容」。
数据需求指数级膨胀：训练计算量每5个月翻倍，数据集规模每8个月翻倍。

市场规模与增长

广义口径：2024年约60-90亿美元，2025年约100-160亿美元（毛口径买方支出）。
狭义口径失真：真实支出多在标注与RLHF/专家数据服务，而非打包数据集。
细分赛道高速增长：
- 合成数据（最快）：CAGR 35.3%，2025年32亿美元，2030年171亿美元。
- 标注工具：CAGR 28.4%，2025年32亿美元，2030年343.8亿美元。
- 采集与标注：CAGR 28.1%，2025年2.18亿美元，2030年17.88亿美元。

价值链与资本

八层结构：越靠近「专家级、多模态、可验证」的一端，单位价值越高。
估值狂飙：ScaleAI被Meta投资143亿美元估值290亿，SurgeAI估值超250亿美元。
内容授权走向规模化：早期34笔交易总承诺约29.2亿美元。

合规与监管

版权诉讼频发：截至2025年10月达51-166起，合规数据获显著溢价。
欧盟AI法案：要求训练数据透明度，将「合规」从自愿变为法定义务。
中国AIGC版权裁决：首例AI生成图片版权案（迪士尼案）、GenAI输出侵权裁决（奥特曼案）。

全球格局与中美双核

美国前沿数据公司估值达软件级，中国玩家多为「盈利但体量小」的上市/挂牌企业。
中国进展：合成灵巧抓取数据集达10亿规模，头部具身公司部署百台机器人。
中美数据市场驱动逻辑不同：
- 美国：前沿实验室拉动+专家数据溢价+VC催化。
- 中国：「数据要素」国家战略+垂类模型驱动。

未来趋势

合成数据走向主导：预计2030年占比全面超越真实数据。
专家/前沿人类数据崛起：5具身AI与世界模型成增长极。
数据飞轮成护城河：美国前沿实验室+专家数据溢价，中国数据要素战略+垂类落地。

研究结论

胜负手正从「更多算力」转向「更优质、更合规的数据」；公开语料枯竭非终点，而是价值化的起点。

The Global Data Market for Large Models 当算力见顶，数据成为AI时代的价值坐标。本白皮书系统呈现全球大模型数据市场的规模、价值链、资本、合规与多模态前沿。艺恩数据·ENDATA·NEEQ871430 2026年版四个章节,读懂数据市场数据，正成为大模型时代的稀缺生产要素进入2025-2026年，随着算力竞赛逼近边际、公开互联网语料趋于枯竭，数据已从「可廉价获取的原料」转变为决定模型上限的稀缺生产要素。市场的核心命题正由「数据规模！转向「数据质量、专业度与合规性」。 2026-32 15亿sAnthropic版权和解额一一美国史上最大版权和解 143亿s Meta入股数据公司ScaleAl金额，估值达290亿美元 EpochAl测算的公开人类文本语料耗尽窗口（中位约2028) 全球AI训练数据相关市场年复合增速区间（多家机构口径) 三个结构性信号 ①峰值数据逼近一一公开语料趋于枯竭，价值向高质量、专家级、合规与合成数据迁移；②资本空前涌入一一数据与专家公司估值集体升，内容授权走向规模化；③合规成为护城河一一诉讼频发叠加欧盟透明度义务，合规数据获显著溢价。本白皮书为对外发布的行业研究，不构成投资建议；前瞻性表述以「预计/预测」标识，完整来源见末页。 01 PARTO1·MARKET&INFLECTION 市场与拐点规模口径分歧·增速共识·峰值数据理论狭义口径,显著低估真实市场常被引用的「AI训练数据集」狭义口径仅约28-32亿美元(2024-25),只统计打包数据集+标注软件。但本白皮书采用广义口径（B=数据集+采集标注+RLHF/专家数据+合成数据：自下而上测算2024约60-90亿、2025约100-160亿美元（毛口径买方支出）。为何狭义口径失真钱在服务里：真实支出多在标注与RLHF/专家数据服务，而非打包数据集。三家即超全市场：Scale(约20亿)+Surge(约14亿）+Mercor（约7.6亿)2025毛收入合计约42亿美元，已超「训练数据集」狭义全球值。■口径关系：训练数据集C采集与标注C数据服务;狭义是子集而非全貌。各细分赛道，高速增长共振 ANNOTATIONTOOLS DATACOLLECTION&LABELING SYNTHETICDATA 合成数据（最快）标注工具采集与标注 2025:32亿→2035:343.8亿美元 2023:2.18亿→2030:17.88亿美元 2024:37.7亿→2030:171亿美元 CAGR35.3%GVR CAGR 28.1% CAGR 26.8% CAGR 28.4%GVR GVR·全行业 Precedence 大厂入局合成数据增长的底层逻辑 NVIDIA于2025年以约3.2亿美元收购合成数据公司Gretel.ai,标志头部算力厂商正式将合成数据纳入战略版图。 StanfordHAl《2025AlIndex》:训练计算量每5个月翻倍，数据集规模每8个月翻倍一一数据需求的指数级膨胀，是各赛道高增速的根本驱动。公开语料枯竭，价值范式转移 EpochAl(经ICML2024同行评审)测算：可用人类公开文本存量约300万亿token，若当前趋势持续，训练数据集规模将在2026-2032年间与之持平,中位数预测约2028年。「数据墙」三重证据 ■存量有限分层。CommonCrawl约130万亿、索引网络约510万亿token，高质量部分远小于此。过度训练加速耗尽。Llama3过度训练约10倍：若转向100倍，数据触顶更早。多轮训练放大3-15倍有效存量，但难以根本解决枯竭。从「更多数据」至到「更对的数据」四条出路行业领袖判断「人类知识的累积总和,已基本在AI训练中被耗尽大体上去年就发生了。」ElonMusk,2025/1(viaTheGuardian) 多模态扩容。引入图像/视频/音频可使训练数据约增3倍(Epoch)。合成数据。以模型生成数据反哺训练，成为缓解数据墙主路径。数据效率与策展。更少但更优质数据获更强能力，「数据中心化AI兴起。高质量/专家数据。通用语料见顶，稀缺的专业、垂直、合规语料价值凸显。真正的问题「如果训练模型的最佳方式是生成一千万亿token合成数据再喂回去，那会很奇怪」核心是「如何从更少的数据中学到更多」。 SamAltman,2024/6(述要,viaTheDecoder) 本章要点公开人类文本趋于枯竭（中位约2028).迫使行业从「数据规模」转向「质量、专业度与多模态扩容」一一这是后续所有市场变化的根本动因。 02 PARTO2·VALUECHAIN&CAPITAL 价值链与资本八层结构·质量溢价·估值狂飙与内容授权八层结构，价值层层递进核心规律越靠近「专家级、多模态、可验证」的一端，单位价值越高、可复制性越低。当通用网络语料见顶，价值链上半部（③-③）的稀缺溢价持续升。 70%+ 业界观察：模型性能提升中归因于数据质量(而非架构)的比例(Technavio,数据中心化Al) 同一份标注，价差可达数十倍估值狂，资本以真金确认数据稀缺头部交易 ScaleAl:2025/6Meta投资143亿美元获49%无投票权股份，估值290亿。SurgeAl:2025/7洽谈以≥250亿美元估值融资;ARR至8月达14亿美元。■Mercor：2025/10估值100亿，较2月翻5倍；管理3万+专家。连锁反应：中立性即资产 Meta入股ScaleAl后,因数据机密性顾虑,Google、OpenAl、xAl等削减或暂停与Scale的合作为Surge、Mercor让出空间印证数据供应行业「中立性」本身即核心资产。来源：Bloomberg、CNBC、TechCrunch、Sacra、PitchBook。从「抓取」到「付费授权」当公开语料枯竭、版权诉讼频发,模型厂商转向授权协议。据Media&theMachine追踪,早期34笔交易总承诺约29.2亿美元（约8.16亿/年)。 Reddit:数据资产价值重估据Reddit2025O2股东信引用Profound（分析40亿+次A/引用）：在截至2025/6/30三个月中，Reddit占全部Al引用3.11%,为Wikipedia(1.35%）两倍多一一成为Al模型第一大被引来源，推动「固定费一使用量一→动态定价」演进。一张图看懂全球数据玩家版图美国前沿数据公司估值已达软件级，中国玩家则多为「盈利但体量小」的上市/挂牌企业。美国·前沿数据公司价值前沿，正向』「专家×多模态」迁移三大梯队 ■价值高地(右上)：Surge、Mercor、Scale、Turing、Toloka—一以专家人工判断与多模态数据获取软件级溢价。 ■平台/工具(中部)：Labelbox、Snorkel程序化标注与评测工具。 ■传统众包(左下·承压)：Appen、iMerit:通用单模态标注被自动化与合成数据挤压。中国厂商卡位海天瑞声（语音/多模态·已上市)、澳鹏中国/曼孚科技（自动驾驶·标注)、艺恩（垂类数据)正集中卡位多模态与垂直象限，与全球价值迁移方向一致。四条赛道，四人范式样本 ④垂直/具身多模态智元AgiBotWorld百万真机片段开源百万级真机数据集，长程任务规模约为Google Open X-Embodiment 的10倍、场景覆盖100倍;中国具身数据供应链成型。 ①通用标注/RLHF ②专家／前沿数据 ③内容授权 Surge Al / MercorARR14亿/4.5亿$ Reddit Scale Al 营收3年×11 AI 引用 #1 18个月市值至~390亿$;Go0gle6000万/年+OpenAl7,000万/年；引用量达Wikipedia3倍，首创动态定价。 2021年8,000万→2024年8.7亿美元;Meta143亿入股引发中立性裂变，客户外流反成对手红利。 Surge 零融资自举至超10亿营收：Mercor3万专家、日付150万S、时薪~85S一瞄准5万亿知识劳动市场。范式启示价值正从「规模化通用标注」流向「专家判断、独家授权与具身多模态」。谁掌握稀缺合规数据，谁就掌握定价权。 03 PARTO3COMPLIANCE®ULATION 合规与监管版权诉讼·出海风险·欧盟AI法案从诉讼频发,到「合规即护城河」截至2025年10月,全球追踪到的AI版权诉讼达51-166起。法院核心分野正在形成：「合法获取」可能构成合理使用，「盗版内容」则明确不被宽有一一这直接抬高合规数据溢价。核心启示美国已有3位法官就AI训练合理使用裁决(2支持训练方、1反对),均强调训练「高度转化性」，但严格区分内容获取来源是否合法。合规由此从「成本项」转为「定价海外视频版权风险·MiniMax／海螺案中国AIGC版权裁决·态度已确立 Disney等v.MiniMax ■北京互联网法院李某案(2023/11)：首例AI生成图片版权案,认定可版权性,判赔5,000元。■广州互联网法院奥特曼案(2024/2)：全球首例GenAl输出侵权裁决,判赔1万元,要求关键词过滤。杭州互联网法院LoRA案(2024)：认定平台帮助侵权判赔3万元；区分训练与生成阶段责任。 ■原告：迪士尼、环球、华纳兄弟探索等12家(2025/9/16,加州中区联邦法院)。■指控：大规模盗用版权角色：复诉引述海螺自标榜「口袋里的好莱坞工作室」。■诉求：每件作品最高15万美元法定赔偿+禁令。■最新：2026/5/23法官驳回撤案动议，进入证据开示(Reuters)。训练数据透明度,成为硬约束欧盟《Al法案》2024/8/1生效.GPAl义务2025/8/2适用2026/8/2全面适用。其对训练数据的透明度要求，正把「合规」从自愿变为法定义务。 CODEOFPRACTICE ARTICLE53(1)(d) TRANSITION 训练内容摘要披露 GPAI行为准则过渡安排 2025/7/10发布，含透明度、版权、安全三章;系统性风险门槛1025FLOP(全球约5-15家公司适用)。 2025/8前已上市模型，有至2027/8/2宽限期；模板自2025/7/24起强制使用。须按AlOffice模板公开训练内容「充分详细摘要」(含受版权数据)披露数据类型、来源及公开数据集前10%域名。合规如何转化为定价能力诉讼频发、监管趋严下，可审计、可溯源的合规授权数据获结构性溢价。内容/肖像/音乐版权的多层授权链条与可披露来源证明，已成为高端供应商区别于「爬虫式」供给的核心壁垒一一合规转化为议价筹码。来源:EuropeanCommission、JonesDay、Skadden、WilmerHale等。 04 PARTO4·GLOBALUS-CHINAOUTLOOK 全球格局·中美双核·未来多模态前沿·中美生态·趋势判断最稀缺、溢价最高的层级当文本语料见顶，竞争前沿转向视频与多模态。视频生成与世界模型对「高质量、合法授权、富标注」语料的渴求,使这一层级成为整个数据市场中最稀缺、单位价值最高的部分。视频生成：竞争白热化 4D/多视角空间数据与世界模型世界模型（NVIDIA定义：理解真实世界动态、含物理与空间属性的生成式A)面临「配对多视角数据严重稀缺」。具身数据「稀缺、采集困难、高维」,被视为机器人达到「GPT时刻」的关键瓶颈。 OpenAlSora2、GoogleVeo3、快手可灵、Vidu、海螺、Runway同台竞技。GoogleVeo的4K真实感与原生音频优势，直接来自YouTube训练数据一一印证独家高质量视频语料的决定性价值。「黄金数据」稀缺

点击免费查看完整报告

全球大模型数据市场白皮书

核心观点与关键数据

公开语料趋于枯竭，价值范式转移

市场规模与增长

价值链与资本

合规与监管

全球格局与中美双核

未来趋势

研究结论

你可能感兴趣

2025全球短剧营销白皮书（市场数据、渠道打法、ROI全盘点）

百思数据治理大模型（BS-LM）技术白皮书

2024大模型训练数据白皮书

【研选】显存墙与数据洪峰逐渐成为大模型性能的掣肘，CPU的重要性开始凸显；拥有全球最好的锂辉石和锂盐湖资源，分析师看好公司锂资源优势明显，产能稳步增长-20260427

【财联社早知道】英伟达联手Zilliz发布全球首个GPU加速向量数据库，将助力AI大模型的发展，这家公司与英特尔联合发布AIGC向量数据库解决方案，能够实现海量向量数据的高实时性查询、检索、召回等功能-20240323

2024全球6G技术大会：6G数据面白皮书

2024全球6G技术大会：10.0D：6g数据面白皮书

全球及中国跨境数据流动规则和制度建设白皮书

计算机行业数据要素专题研究报告：大模型与数据共振，数据要素市场方兴未艾

印度市场解析：2015~2016全球P2P文件互传行业白皮书