AI智能总结
数据存储 数据新范式,释放AI新动能 序言 今天AI大模型是一个非常热的话题,如果说我们把机器智力的发展跟人类过去文明和智力的发展进行类比,有很多相似之处。人类出现在地球上,有几十万年的历史,但是真正人类文明的高速发展也就几千年。这里边最关键的是文字的出现,我们可以记录我们的经验和知识,而且记录下来之后可以群体性地进行学习、复制、演进、发展,这就导致了我们人类社会文明在这几千年当中高速地发展。 数据、无AI,我觉得这句话是非常重要的,它跟人类的历史也恰恰是一样的。 如果说我们仅仅只有一个方法论,但是缺乏知识库,缺乏语料库,那么所有的AI大模型本质上是没有意义的。我们必须喂给它知识库、语料库,它才能够针对我们的场景形成咨询师,形成编程机器人,形成客服机器人,让它具有自己学习的大脑。 那么同样的,AI机器文明的发展会怎么样。我们可以看到,今天机器已经有了很好的算法,这个算法可以使得机器能够学习,但是更重要的是学习的素材在哪里。所以有一句话叫做缺 因此在整个系统当中,除了算这一部分,把我们今天的信息进行数字化存储,变成知识库,让这些知识库用的更 好 , 这 一 点 也 需 要 引 起 足 够 的 重视。 所以我们认为,企业在未来AI时代要持续领先,一个很重要的基础就是必须具备先进的以数据存储为核心的数据基础设施。 意义的探索,将凝聚更多的产业力量共同推进数据存储产业的发展。 过去三十年,数据存储一直是高价值数据的最佳底座,新技术、新应用产生的数据源源不断地汇入数据海洋,华为数据存储愿与产业各方更加紧密携手努力,汇聚产业力量,共创数据存储美好未来。 华为公司在数据存储产业上的大规模投入超过十年,产品已进入全球超过150个国家和地区,广泛服务于运营商、金融、政府、 能 源 、 医 疗 、 制造、交通等多个行业超过25000家客户。通过与业界专家、客户和伙伴深入交流,我们编写了这份《迈向智能世界-数据存储》白皮书报告,结合近期火热的A I大模型话题,从新应用、新数据、新安全、新技术、绿色节能五个方面,展望数据存储的发展趋势与行动建议。我相信这是一次有 周跃峰华为数据存储产品线总裁 执行摘要 AI大模型已超出人类想象的速度,将我们带入智能世界。算力、算法、数据构成了AI的三要素。算力、算法是AI大模型时代的工具,数据的规模和质量才真正决定了AI智能的高度。数据存储将信息变为语料库、知识库,正在和计算一起成为最重要的AI大模型基础设施。以AI大模型为代表的企业智能化应用,正在和经典数据库应用形成并驾齐驱乃至超越之势。每一次应用的变革,都伴随着数据基础设施架构的演进。高可靠、高性能、共享的数据存储,成为以Oracle为代表的数据库的最佳数据基础设施。新的企业智能化应用从量变进入质变阶段,正在形成新的数据范式。 面向未来,我们对企业数据存储进行了如下展望: AI大模型将AI带入新的发展阶段。AI大模型需要更高效的海量原始数据收集和预处理,更高性能的训练数据加载和模型数据保存,以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的AI数据新范式正在蓬勃发展。121 大数据应用经历了历史信息统计、未来趋势预测阶段,正在进入辅助实时精准决策、智能决策阶段。以近存计算为代表的数据新范式,将大幅提升湖仓一体大数据平台的分析效率。2 以开源为基础的分布式数据库,正在承担越来越关键的企业应用,新的分布式数据库+共享存储的高性能、高可靠架构正在形成。3 多云成为企业数据中心新常态,企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦,从而实现应用多云部署、数据/资源集中共享。以容器为基础的云原生应用,从无状态应用走向有状态应用,数据存储一方面要提升资源发放效率,更重要的要承载全新的云原生应用。存储即服务的商业模式,正在从公有云走向企业数据中心。4 数据存储 80%的企业新增数据是非结构化数据,AI大模型正在加速海量非结构化数据进入生产决策系统,全闪分布式存储成为海量非结构数据最佳数据基础设施。AI大模型应用聚集海量企业私域数据,数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系,迫在眉睫。全闪存存储以高性能、高可靠、更优的TCO,不仅实现对高性能机械硬盘的替代,也将实现对大容量机械盘的替代,从而打造全闪存数据中心。AI大模型推动数据中心的计算、存储架构从以CPU为中心走向以数据为中心,新的系统架构、生态正在重新构建。AI技术正在越来越多地融入在数据存储产品及其管理,从而大幅改善数据基础设施的SLA水平。绿色节能从产业牵引进入实施执行阶段,占数据中心能耗30%的数据存储,能耗指标正在纳入建设标准。6578910 面向以AI大模型为代表的企业智能化新应用,新的数据基础设施架构也正在逐渐形成。为了构建大模型时代最佳的数据基础设施,我们建议: 123企业数字化从以应用创新为主,转向应用和数据基础设施的协同创新,充分发挥数据潜力。针对AI、大数据、分布式数据库、云原生应用,建设新应用和数据存储的联合设计团队,共同打造最佳的数据基础设施。坚定不移地推进新应用的存算分离架构,充分发挥应用、存储的专业能力,实现强强联合。 探索以数据为中心的新存储系统架构;构建新的数据范式,推动数据存储支持近存计算、新的数据格式、新的数据访问协议、高性能应用数据缓存。新架构和新范式的组合优化,将大幅提升数字化新应用的效率,让新应用拥有更高的SLA,并尽量降低传统应用的改造成本。4 企业核心的竞争力应用部署在企业自建数据中心,不确定性创新业务根据需要可以尝试公有云。云的建设模式逐渐向应用多云部署、数据/资源集中共享的分层解耦模式演进。面向容器为基础的云原生应用,联合应用开发团队和数据存储团队,构建云原生应用最佳实践。依据企业的战略、经营情况、未来预测,不盲从,综合对比、选择合适的商业模式,并选择合适的MSP、存储厂商合作伙伴。5 加速全闪存存储的应用,采用以数据为中心的新架构存储、高密硬件、数据缩减、系统融合、海量非结构化数据治理等技术,降低海量数据的TCO,打造绿色低碳的数据中心。6 将数据存储团队加入数据安全联合团队,制定数据存储内生安全标准,构建数据安全的最后一道防线。7 积极尝试AI使能的数据存储产品及其管理,提升团队人员AI技能,从而大幅改善数据基础设施的SLA水平。8 AI大模型新应用展望一 缺数据,无AI 随着GPU算力、AI算法的迅猛发展,以生成式AI为代表的AI大模型时代已经来临。其在对话、知识反馈等方面已远超过普通人类水平,更将颠覆互联网、制造、金融、媒体等千行百业。当前,AI大模型的第一波浪潮已经开始,作为企业IT建设的决策者,需要正视并主动拥抱变化,探索企业如何利用好大模型赋能生产、提升效率。 趋势 举例来说,同年发布的的生成式绘图AI软件Midjourney在1分钟内,便可根据描述创造出不逊于人类顶尖设计师的作品。Midjourney基于GPT大模型,实现了在33个设计领域均实现应用落地,例如,在文创设计领域的毛线 编 织 、 手 机 壳 、 盲 盒 公 仔 、 冰 箱贴、贺卡、玩具,在视觉设计领域的卡通头像、公司Logo、徽标、电影海报 , 甚 至 在 家 装 设 计 领 域 的 地 毯 纹路、瓷砖图案、家具造型…… AI的发展远超过预期 2022年末,当OpenAI发布ChatGPT时,没有人能想到,AI大模型接下来将为人类社会带来历史性变革。其拐点已经出现:2022年以前,AI还是一个面向专用领域以“感知世界、理解世界”的小众工具 , 例 如 计 算 机 视觉、互联网推荐。当前,它已经成长为面向通用领域以“生成创造世界”的全能发明家,懂学习知识、会理解思考,在社交、办公、编程、决策、创意生成中掀起生产力的巨浪。 示,沃尔玛、亚马逊和微软等公司已经通知员工不要在ChatGPT或类似生成式应用中输入任何机密信息,而摩根大通、花旗集团、德意志银行和美国银行直接禁止员工使用ChatGPT。Verizon也禁止员工从公司系统访问ChatGPT,原因是Verizon认为如果将客户信息、源代码或知识产权等内容放置在AI平台上,这些信息最终将转化为这些平台的资产,从而失去对数据流转的控制。 大模型正在从基础大模型走向企业自建的行业大模型 AI基础大模型已逐渐普及,正在加速向各个行业渗透。过去,AI在不同场景下需要开发和训练不同的模型,不仅投入大、效率低,而且是从最基础的模型开始开发,技术门槛极高。而如今,大模型很大程度上打破了AI通用化、行业化的瓶颈,为上层应用提供更多通用性的基础能力,企业不再需要按场景从零开始开发和训练独立的基础模型,仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据,即可进一步实现大模型的专业训练,满足特定领域对准确度、安全性等方面的 诉 求 。 根 据 华 为 分析,预计95%的中大型企业未来将基于专属数据自建行业大模型,依赖如银行的企业账户与个人财务信息、车企的自动驾驶影像记录、医疗集团的用户健康数据。 数据决定AI智能的高度 A I大 模 型 三 要 素 是 数 据 、 算 力 、 算法。随着AI技术快速成熟,各企业所能够使用的算力已逐渐趋同,均是以英伟达、昇腾为代表的GPU硬件;而各企业采用的算法也同样逐渐收敛简化,均采用Transformer模型基础架构和Pytorch、TensorFlow、MindSpore开发框架。因此,真正决定AI智能高度的是数据,企业需要思考怎样才能用好数据。 其次,我们也发现,企业对于使用公开的大模型,是非常谨慎的。数据是企业的核心资产,企业无法接受在大模型使用中导致企业核心机密泄露。据Cyberhaven对覆盖160万名来自各行业员工的调研,2.3%的员工曾将公司数据复制到ChatGPT,且其中机密数据占11%。而根据Gartner报告显 首先,训练数据的规模至关重要。我们发现,同样是大语言模型,Meta开发的LLaMA拥有650亿参数和4.5TB训练数据,而OpenAI的GPT-3.5拥有1750亿参数和570GB训练数据,尽管LLaMA在参数规模上仅不到GPT-3.5 的一半,但其表现能力在大部分基准上均超过后者。不仅如此,LLaMA更是与来自DeepMind的700亿参数模型Chinchilla、来自谷歌的5400亿参数模型PaLM在表现上旗鼓相当。由此可见,相较于模型参数规模,训练数据的体量对提升AI精度的效果更能起决定性作用。 首先,海量原始数据的归集效率。这个阶段需要通过跨地域、跨线上线下的方式对数据进行归集汇总,进行如数据中心、边缘、云间不同协议格式数据的交互。据统计,PB级数据的归集通常花费3~5周,耗时占据整个AI大模型全流程时长的30%。为了加速数 据 归 集 、 减 少 后 续 分 析 的 等 待 时间,需要存储具备高效汇聚、协议互通、海量按需扩容的能力。 其次,数据的质量同样重要。AI大模型生成不正确、有歧义、无意义或不真实的结果,根本原因就是缺乏具备规范性、完整性、时效性的高质量数据源支撑。对于基础大模型,主要基于厂商从公开渠 道 所 获 取 数 据 的 质量。而对于行业大模型的训练及细分场景推理应用,模型效果取决于行业专属的私域数据的质量,这包含了企业原有数据,与 实 时 更 新 的 增 量 数据,也就是行业知识库。 其 次 , 数 据 的 预 处 理 效 率 。 通 过 收集、爬取的原始数据是无法直接用于模型训练的,PB级原始数据会在这个阶段被CPU与GPU再次读取,进行解析、清洗、去重等工作,包含至少3次 全 量 数 据 读 取 与 搬 迁 , 所 消 耗 的C P U、G P U、网络、内存资源占据30%以上,然后最终生成训练样本用于后续训练。我们分析,企业在这个阶段耗时超过50天,占据AI大模型全流程时长的40%以上。为了保证数据处理的效率、减少资源的浪费,需要存储提供对数据的就近处理能力。 作为数据载体,数据存储成为AI