
CCSA TC601大数据技术标准推进委员会2024年6月 版权声明 本报告版权属于CCSA TC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:CCSA TC601大数据技术标准推进委员会”。违反上述声明者,本组织将追究其相关法律责任。 编制说明 本报告的撰写得到了数据智能领域多家企业与专家的支持和帮助,主要参与单位与人员如下。 参编单位:大数据技术标准推进委员会、交通银行股份有限公司、中国平安人寿保险股份有限公司、中国海洋石油集团有限公司、南方电网数字平台科技(广东)有限公司、中邮信息科技(北京)有限公司、中移动信息技术有限公司、恒丰银行股份有限公司、小米通讯技术有限公司、中电信人工智能科技(北京)有限公司、联通数字科技有限公司、华为云计算技术有限公司、腾讯云计算(北京)有限公司、普元信息技术股份有限公司、中电金信软件有限公司、浙江大华技术股份有限公司、瓴羊智能科技有限公司、杭州阿里妈妈软件服务有限公司、星环信息科技(上海)股份有限公司、电科云(北京)科技有限公司、北京数势云创科技有限公司、北京市盛廷律师事务所、北京盛汉律师事务所、江苏联著实业股份有限公司、北京国电通网络技术有限公司、北京科杰科技有限公司、中国移动紫金(江苏)创新研究院有限公司、一网互通(北京)科技有限公司、杭州比智科技有限公司、杭州观远数据有限公司、深圳市明源云科技有限公司、海亮教育科技服务集团、芜湖明瞳数字健康科技有限公司、上海零数众合信息科技有限公司、天元瑞信通信技术股份有限公司、南京中新赛克科技有限责任公司、湖北数据集团、泽拓科技(深圳)有限责任公司、杭州网易数帆科技有限公司 参编人员:王卓、姜春宇、马鹏玮、康宸、田稼丰、王超伦、刘 宾、杨靖世、郝志婧、尹正、周一帆、梅宇婷、朱晟、张义德、郑会丽、刘朝晖、范维、高健祎、杨光、包新晔、吴凡、王文颖、阮宜龙、陈卓、代莎、任鹏飞、余弘铠、刘涓、卫伟、高波、张淑娟、燕媛媛、史赟、李阳、高华超、龚禧、龙江、赵丽丽、李沐霖、叶嘉梁、贾宇航、蔡洛维、杜啸争、王笑非、王东风、周明伟、陈立力、江文龙、马里、孙蕾、陈思、胡晋渊、董鹏飞、侯承环、武文超邢笑生、张广庆、方正、丁乙、韩秀锋、沈迪、李紫薇、毕文强、李永卓、张云龙、肖敬仁、姜怀舒、王楠、唐志涛、卢彩霞、余芳、朱建勇、贾光锋、王帅、彭涛、包岩、周晓阳、寇振芳、崔壤丹、何徐麒、张进、严林刚、石凯、曾伟雄、苑国跃、余震宇、谢耀圣、项灵刚、谭立何、杨博、闫阳阳、刘𬱖、兰春嘉、杨珍、李树磊、卢云川、顾欢欢、张全、钱龙、古伟、彭聪、石松、赵伟、孙国良、闫晶、宋昌 前言 以“数据”和“智能”为代表的信息技术在数十年间快速融入全社会的生产、分配、流通、消费、社会服务管理等环节,不断带动生产力提升,推动社会进步。 近年来,伴随数据增列为生产要素、生成式人工智能技术实现突破,“数据”和“智能”产业均进入剧烈变革期,两者间的发展关系也发生巨大变化,“数据智能”顺势成为产业焦点。 为梳理数据智能相关知识体系,总结先进实践经验,研判未来发展趋势,指引企业顺利实现数智化转型,大数据技术标准推进委员会牵头,联合行业专家和头部企业首次共同编制《数据智能白皮书(2024年)》。本白皮书聚焦数据智能这一话题,梳理概念的诞生背景及发展历程,系统性厘清完整技术体系,深入剖析应用现状问题,展现产业生态全景,以期为企业未来的数据智能实践提供参考。由于时间仓促,水平所限,本白皮书仍有不足之处,欢迎联系wangzhuo@caict.ac.cn交流探讨。 目录 一、数据智能综述....................................................1(一)数据智能概念探讨...........................................1(二)数据智能的历史发展沿革.....................................3(三)数据智能的价值和意义.......................................5二、数据智能技术....................................................8(一)数据智能技术体系概览.......................................8(二)数据智能关键技术发展态势...................................9(三)数据智能技术未来展望......................................21三、数据智能应用...................................................22(一)数据智能应用发展态势......................................23(二)数据智能应用当前问题......................................26(三)数据智能应用未来展望......................................28四、数据智能产业生态...............................................34(一)数据智能全景化布局提速,产业体系逐步完善..................34(二)全球数据智能产业快速发展,规模化效应初显..................37(三)数据智能产业挑战与机遇并存................................40五、总结与展望.....................................................44 图目录 图1数据和智能间关系的变化................................................................................1图2数据智能发展脉络............................................................................................3图3数据智能技术体系概览....................................................................................8图4部分生成式大模型发布情况统计..................................................................17图5数据智能应用体系概览..................................................................................22图6大模型赋能的数据智能应用场景..................................................................29图7数据智能产业图谱..........................................................................................35图8数据智能企业营收分布情况..........................................................................36图9数据智能企业研发人员数量占比情况..........................................................37 表目录 表1数据智能应用发展阶段..................................................................................24表2各行业数据智能应用落地的头部场景..........................................................25 一、数据智能综述 (一)数据智能概念探讨 近年来,智能领域突破“量变引发质变”的临界点,相关技术、产业进入剧烈变革期。自1956年人工智能(AI)概念诞生以来,智能计算领域历经多个阶段的技术方向探索,逐渐收敛在深度学习这一主线,但仍以“决策式人工智能”为主要发展领域。近两年,在以Transformer模型为代表的算法、极致算力支撑下的千亿级模型参数、大规模高质量的训练数据三者共同的作用下,生成式大语言模型的应用效果出现跨越式提升。以GPT-4为代表的大模型能实时对图像、音频、视频等多种形式输入进行理解,根据要求完成高效问答、内容生成等多种任务,甚至以前10%的成绩通过美国模拟律师考试,由此“生成式人工智能”的发展成为全球焦点,带动人工智能技术产业进入剧烈变革期。 伴随智能领域变革,“数据”与“智能”间的发展关系亦呈现两点重要变化,“数据智能”概念亟需明确。如图1所示,数据和智能间的关系变化在近期主要体现为两点: 一是“智能”将成为“数据”价值释放的主要路径,“数据”成为“智能”成效进一步跃迁的胜负手,两者关系由“松耦合”转向“紧耦合”。长期以来,受制于智能技术的局限性,数据仍以非智能化的传统应用方式发挥价值,同时,智能应用效果的明显提升主要由算法驱动,数据仅作为研发过程中的基础一环,两者呈现“松耦合”式发展关系。然而,随着生成式大语言模型应用效果的飞跃式提升,人工智能对于生产生活各领域将逐渐不可或缺,进而成为数据价值释放的主要路径;同时,随着算力、算法的演进模式逐渐收敛,数据对智能持续发展的价值愈发突出。由此,助力智能发展将成为数据工作的核心,智能的效果提升也更加依赖数据工程及技术的托底,两者后续将转向“紧耦合”式发展关系。 二是智能化技术开始反向助力数据技术发展和非结构化数据应用。一方面,智能化技术开始应用至数据技术领域,在生成式人工智能的赋能下,数据的汇聚技术、存算技术、管理技术、开发技术、安全技术等快速向智能化升级,相应环节的生产效率有望得到大幅提升;另一方面,智能化技术突破传统数据技术面向非结构化数据的能力瓶颈,占据未来数据总量约80%的文档、视频、音频等非结构化数据在生成式人工智能技术的助力下,可被迅速处理和分析,从而实现全形态数据的价值释放。 通过以上两点变化可见,数据与智能的融合大势所趋,由此“数据智能”的概念也应运而生。数据智能的概念可以初步概括为,以全形态数据为关键资源,以大数据和人工智能深度融合后的新技术体系 为关键手段,以决策式、生成式人工智能和传统数据应用形式协同应用于生产生活各领域为最终目标,由此形成的新兴生产生活方式,以及相应延展出的新技术、新产业、新生态。 (二)数据智能的历史发展沿革 数据和智能是信息技术领域中最受关注的方向,其历史最早可以追溯到计算机的诞生,随后至今的近80年大致可分为三个阶段,总体的技术演进脉络如下图所示。 第一个阶段是技术准备时期(2000年以前),这一阶段主要是由技术驱动的发展阶段。在计算机诞生后的20年内,通过计算能力形成人造智能的人工智能(AI)概念,和对数据进行管理和处理的数据库理论均已提出。随后,人工智能经历了从基于规则的推理方法到基于统计的机器学习方法的转变,经典机器学习和早期人工智能理论逐渐形成体系。数据领域则由关系型数据库完成大多数据管理和处理需求,同时诞生了数据仓库理论,指导企业使用数据库等相关工具实现基本的经营管理数据分析。这一阶段中,新兴信息技术不断涌现,为企业、产业、社会带来革新的生产力,信息技术的重要性为人所熟知。 第二个阶段是大数据时期(2000年~2020年),这一阶段主要是由数据驱动的发展阶段。随着互联网时代的全面到来,数据量的爆发式增长、数据类型的