AI智能总结
D≯ṡ㏰䣺摴䓽䔮᳦ 编制委员会 贵州省数据流通交易服务中心贵州大数据集团贵州贵旅数网科技有限公司华为云计算技术有限公司编制单位(排名不分先后) 朱宗尧徐昊张广肖霏编委顾问 潘伟杰金凯艾晓松胡琼元黄籽渝赵将吕东宋雪胡鹤袁波吴越邓龙江刘志杰刘泥君代新敏王似巍冯俊峰吴忠林李勇龙婕杨文敬张洪能尹舒鹤李媛杨松张中黄涛陈媛黄松杨舒宁徐强徐俊悦怡张志刚霍战鹏邝逸鹤周岩王立乔丽娜陈勇邴丽孙梦龙陈玙杨梦辉唐如兵雷鸿伟郑辉张小军柏君孙思东张鑫洁唐文张溯陈吉栋叶飞白文武何志强编写成员(排名不分先后) CONTENTS 䕮 ⷕ 01㏰䣺摴ᴺⱥ㓺佽⇏⊌≑⫕㆑滵滻瀲滶滹 滶灙㏰䣺摴≑⫕㆑滷灙ᴺⱥ㓺佽➧㢡☋婭㐙≑⫕㆑滸灙㏰䣺摴D⇏⊌≑⫕䔄ῳ掮㆑ 滶灙㐰ᷓ䭻濢㏰㢡⇏⊌滷灙㐰㘶㘄濢D≯ṡ㏰䣺摴滸灙㐰䎟⺁濢㏰㓺䎟 04≂亃ⶕ䎨滺滵瀲滺滶 滶灙宵ⱞ➧㏰敆╢Ῥ㏰㈈㗃幐劥䣺摴⨞屵滷灙宵ⱞ䖁㐇㑅囌Ლ㏰䣺摴≊➧㢡☋⨞屵滸灙㯷㏰敆╢♎Ⲃ㏰䣺摴⨞屵滹灙㱱△⇗⫱㏰≯ṡ㯁庚㖍℡㈢䮢⨞屵滺灙⇎ᲺᶁᲚ㏰䣺摴㈢䮢⨞屵 前言PREFACE 构建可信数据空间与人工智能协同创新范式,开启人工智能新时代。 在数字文明加速迭代进化的时代洪流中,数据与人工智能共生发展正重塑全球经济的格局。数据作为我国第五大生产要素,其价值释放的深度与广度,直接决定了人工智能产业从“感知智能”向“认知智能”跃迁的新高度。当前全球数据总量虽呈指数级增长(2023年突破 175ZB),但高质量语料尤其是中文语料严重匮乏,实际流通率却不足 5%。数据产业面临“不敢共享、不愿共享、不能共享”的困局如同无形枷锁禁锢着 AI 创新的步伐。比如医疗数据因隐私顾虑难以赋能疾病预测模型,工业数据因竞争壁垒阻碍供应链协同优化,金融数据因权属模糊制约风险管控精度,这些挑战的本质,是数据要素市场化配置过程中“信任基础”的不足,也将严重制约着人工智能产业的发展。 国家数据局重磅出台《可信数据空间发展行动计划(2024—2028 年)》,以国家战略方式推动可信数据空间的加速建设,预计 2028 年国内将建成 100 个以上可信数据空间,包括城市、行业、企业、个人、跨境五类可信空间,打通数据要素流通的“最后一公里”。在AI 时代,可信数据空间是战略级新型数据基础设施,它不是单一技术、工具的堆砌,而是制度规则、技术架构、生态系统三位一体协同的创新范式,将成为全域数字化转型的核心数字底座。 随着人工智能技术指数级增长,生产型 AI 场景爆发式应用,大模型对高质量数据的“饥渴需求”进一步放大了可信数据空间的价值。本白皮书结合新技术的理解与创新实践的探索,梳理可信数据空间与 AI 协同发展的技术路径、制度框架与实践蓝图,提出 AI 可信数据空间的顶层设计与创新架构,希望借此推动产业共识,联合各界探索数据要素市场化改革的灯塔,共同开启“数据可信即 AI 未来”的新纪元。 01数据空间与人工智能协同发展挑战 在技术架构上,欧盟以 GAIA-X、IDSA 为代表,采用联邦式、去中心化架构。数据不集中存储,而是保留在数据源地,通过联邦学习、隐私计算等技术实现协同分析。此外,还利用区块链、分布式身份认证等技术,保障数据流通的安全与可控。通过连接器机制(Connector Mechanism),实现了不同系统间的数据互操作,提升跨域数据流通效率。 1、数据空间发展与挑战 1.1 数据空间国内外发展趋势 国际 数 据空间(IDS, International Data Space)的概念最早起源于欧洲,旨在解决数据孤岛、隐私安全和权属不清等问题,推动数据的高效流通与价值释放,促进数字经济的快速发展。 在生态与应用方面,欧盟已启动 14 个共同数据空间,覆盖工业制造、医疗健康、金融、能源、农业等领域。典型案例包括 Catena-X(汽车行业)、欧洲健康数据空间(EHDS)、德国工业数据空间(IDS)等。这些数据空间推动了产业链上下游企业的数据共享与协同创新,为欧盟数字经济的发展注入了新动能。 2016 年,德国工业 4.0 战略率先提出工业数据空间的概念,随后欧盟推出《欧洲数据战略》,将数据空间建设提升至战略高度。美国、日本等国纷纷跟进,结合自身特点探索数据空间建设模式。截至 2024 年,全球已建成超过 200 个可信数据空间,覆盖工业、医疗、金融、能源、农业、交通等多个领域,实现了数据的安全可信流通与价值共创,成为数字经济高质量发展的关键基础设施。 全球可信数据空间建设发展日趋成熟,随着国家数据局的战略布局和重点工作推进,我国可信数据空间的建设已逐步从试点探索走向规模化建设。2024 年11 月国家数据局发布《可信数据空间发展行动计划(2024—2028 年)》,首次在国家层面对这一新型数据基础设施系统布局,明确到 2028 年建成 100 个以上可信数据空间的目标。 欧盟是国际数据空间建设的先行者,其发展模式以联邦式去中心化为核心。欧盟通过《欧洲数据战略》、《数据治理法案》、《数据法案》等政策文件,强调数据主权、多方协同治理和标准化,GDPR(通用数据保护条例)为数据保护奠定了法律基础。 我国可信数据空间的建设可以分为四个主要阶段: 1.2 可信数据空间主要挑战 · 第一阶段:建制度(2020-2022 年):国务院陆续发布《关于构建更加完善的要素市场化配置体制机制的意见》、《关于构建数据基础制度更好发挥数据要素作用的意见》等文件,明确数据列为新型生产要素,提出“三权分置”等制度,形成基础的制度框架,明确数据要素使用规则,为数据要素市场化配置奠定基础。 可信数据空间作为国家数据基础设施的重要组成部分,作为全域数字化转型的新型底座通过构建安全可信的数据流通利用环境,促进数据资源的共享共用,进而释放数据要素价值。国家数据局发布行动计划明确推进企业、行业、城市、个人、跨境五类可信数据空间建设,可信数据空间建设目前还处于发展初期面临诸多堵点问题与挑战: · 第二阶段:立顶设(2023-2024 年):数据局负责完成发布《数字中国建设整体布局规划》,明确构建全国一体化数据资源体系,提出让数据“供的出、流得动、用得好”的顶层设计方案。 · 挑战一、数据供给意愿不足 ①权属不清与价值分配难:数据产权界定模糊,数据供给方担心共享后失去控制权或收益被稀释。例如,担忧数据泄露导致核心竞争力丧失; · 第三阶段:强行动(2024-2025 年):陆续发布《“数据要素 ×”三年行动计划(2024—2026 年)》、《公共数据资源授权运营实施规范(试行)》等管理要求,推动数据要素在各行业的应用与价值释放,明确从登记→授权→定价的完整链条。同时发布《可信数据空间发展行动计划 2024-2028》明确可信数据空间定义与定位,提出 100+ 可信数据空间建设目标。 ②合规成本高:数据分级分类标准不统一,敏感数据(如医疗、金融)脱敏处理需专业团队,数据供给方难以承担人力与资金成本。 · 挑战二、数据流通效率低 ①跨域系统数据协议不统一:政府、企业、行业数据分散在异构应用系统中,数据结构、接口标准不统一,跨域流通效率低; · 第四阶段:促发展(2025 年 -):数据局发布《2025年可信数据空间创新发展试点名单》、数标委发布《可信数据空间技术架构》,进一步加强牵引各类数据空间的加快建设。 ②安全与实时性矛盾:为满足“数据不出域、可用不可见”安全要求,隐私计算(如多方计算、同态加密、联合分析)导致计算性能延迟增加 50% 以上,难以支撑高价值场景(金融、物流、交通)等低时延响应要求。 · 挑战三、高质量语料稀缺 · 挑战四、安全能力参差不齐 政府、金融、医疗、制造等行业大模型专业语料稀缺,海量多模态数据(文本、图像、传感器)待标注数据占比高,高质量语料转化率低(语义缺失、时效滞后等),无法满足行业大模型训练推理阶段对行业标注数据的诉求。 数据流通涉及数据提供方、使用方、服务运营方等众多参与主体,不同主体的网络安全、传输安全、数据安全等防护水平差异较大,容易成为攻击者突破的薄弱环节,无法满足全链路数据安全防护要求。 2、人工智能大模型语料发展与挑战 2.1 人工智能大模型语料发展趋势 1. 从大语言模型到多模态 / 具身智能大模型的语料演进 当前大模型技术正经历从弱人工智能(机器学习、神经网络、大语言模型)向通用人工智能(Agent、多模态、具身智能)的范式跃迁。这不仅对于模型架构的设计理念进行了重构,同时也对大模型各阶段的训练语料提出全新要求。 首先,对多模态关联的复杂语料需求日益迫切。针对大模型语料质量,传统纯文本数据已经无法支撑多模态与具身大模型联合建模的需求。业界实践表明,在多模态场景下的语料供给,需要进行跨模态语料数据精准对齐,实践通过融合图文信息,运动轨迹,场景数据,使得复杂论文的解析准确率提升 37%。此类多模态场景在处理包含图表、公式的复杂文档时,需要在语料标准中体现语义逻辑关联能力,同比文本标注对于数据融合要求更高。 现在数据规模的主流路径,预计 2025 年合成数据在AI 训练中占比将达 40%,例如工业数字孪生场景中,合成图像替代率从 30% 升至 65%。 同时语料数据的内容可信度保障面临更高要求。多模态语料的质检需建立跨模态的数据质量检验流程机制,避免图文内容不一致从而导致模型“越训越差”,造成模型认知偏差。再例如,具身智能模型将与物理世界进行高度交互,语料内容中需要包含安全边界参数(如机械臂操作力度阈值),确保与现实环境的适配。 其次,语料规模需求同样呈现量级扩张。根据行业报告分析,多模态(视频)语料在智能监控领域的渗透率从 2023 年 18% 提 升至 2025 年 35%,例 如 特 斯拉自动驾驶系统当前需要超 20 万小时多模态场景数据进行模型能力提升。此外,具身智能模型更需要空间动态语料,比如物体运动轨迹、各类参数信息等。据求思咨询报告分析,全球 AI 语料市场规模预计在2025 年突破 109 亿元。并且数据合成成为当前突破 2. 从通用模型到行业大模型的语料深化 随着通用模型发展从试点到落地,具有行业属性的行业大模型也逐步成为模型能力提升的重要转变,意味着 AI 技术从广度覆盖转向行业深度赋能,而行业大模型的性能则更是高度依赖领域的高质量语料。 语料质量:随着通用语料的逐步耗尽 , 在高质量行业数据上的加工与使用成为各模型能力差距的主要原因。例如上海规划资源专项语料库,通过归集 1200份技术标准、5.7 万份城建档案,建立“专家标注 +AI校验”双重标注模式,可以实现地图信息的精准规划,从而代替通用语料仅能提供政策咨询渠道等简单能力,成为垂类模型的“高配置语料库”。 采用“本地小模型 + 云端大模型”架构,通过将企业内法务、财务等数据进行向量化处理,并结合联邦学习技术,使得跨机构数据协同合作的数据泄露风险降至0.001% 以下。 2.2 人工智能大模型语料主要挑战 内容可信:语料构建需要兼顾内容合规与机密性。尤其在医疗行业,领域语料常涉及大量个人隐私信息,医疗记录,企业信息等敏感内容,因此对于数据内容的隐私保护,催生出隐私计算技术的逐步成熟与落地。比如每日互动公司推出的 GAI Station 智能工作站, 当前随着模型尺寸及模型场景的不断发展,语料的端到端建设与工程化能力也面临着挑战,具体展开为公开数据即将耗尽、领域数据流通困难、多模态对齐与合规性制约等三大维度,使得高质量数据资源成为模型能力提升的关键瓶颈。 公开数据即将耗尽:随着智能化进程逐步推进,不同语种的语料资源质量与规模差异巨大,在全球数据训练集中,英语等主流语言拥有海量高质量数据,中文语料数据的占比仅为 1.3%。Epoch 研究表明,基于当前语料消耗速度,预计将在 2026 年,现有的公开高质量语言数据即将耗尽。 有得到解决。虽然私域数据的专业性、可靠性、准确度可与行业场景更好适配,但专业领域知识积累门槛高