您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[AFL]:人工智能数据中心:扩大规模与拓展规模 - 发现报告

人工智能数据中心:扩大规模与拓展规模

信息技术2024-01-01AFL
AI智能总结
查看更多
人工智能数据中心:扩大规模与拓展规模

人工智能数据中心:扩大规模与拓展规模 执行摘要 本文件深入分析了现代人工智能数据中心实现规模扩大和扩展的技术基础。通过突出关键行业发展和高级扩展技术的持续演变,作者旨在强调在扩展的关键方面,包括人工智能硬件创新、模块化基础设施规划和复杂冷却方法等方面,需要行业范围内的协作方法。 您将了解到: 01 人工智能与机器学习简介 获得人工智能(AI)、机器学习(ML)和大型语言模型(LLMs)的全面概述。本节解释了基本概念,包括模型、训练和推理 。 02 人工智能自2017年以来的演变 探索重要的AI里程碑,例如变革性的Transformer模型的出现。本节还强调了朝着更大规模的AI模型和增强计算能力的发展趋势。 03 扩大人工智能基础设施规模 探讨现代AI数据中心扩张策略,关注扩张规模和扩展性。 04 人工智能硬件的进步 了解半导体技术、芯片模块和封装技术的创新 。深入了解高速网络和先进冷却系统。 05 人工智能的未来趋势 探讨新兴趋势,例如分段模型、频率降低的同步和扩展分布式系统。本节还讨论了数据中心互联(DCI)对中长距离连接日益增长的需求。 作者: 艾伦·凯泽,高级技术顾问,AFL 本·阿瑟顿技术作者,澳大利亚足球联赛(AFL) 2 版权所有©2024AFL。保留所有权利。 生成式人工智能已出现并迅速发展,其规模和速度出乎我们意料。它建立在多种技术平台之上,所有这些技术也在规模和速度上取得了进步。这是一个非凡的技术故事。 艾伦·凯泽,高级技术顾问,AFL 版权所有©2024AFL。保留所有权利。3 人工智能(AI)、机器学习(ML)和大型语言模型(LLMs)简➴ 人工智能(AI)是指那些旨在执行通常需要人类智能的任务的机器或软件(例如,理解自然语言、视觉感知、语音识别、语言翻译、学习和问题解决)。 机器学习(ML)训练算法以推断意义并提供对独特提示的准确类似人类的响应。深度学习(DL)是无需人类干预的机器学习。深度学习使用称为人工神经网络(ANN)的算法,这些算法在多个阶段处理输入刺激,并能识别复杂数据集中的关系。大型语言模型(LLM)是专门处理语言的深度学习模型。 DL算法可以处理任何其元素之间存在关系的数字化信息。例如,LLMs可以生成针对查询或提示的人类语言响应(例如,GPT-4),并且也可以在图像和编码等某些非语言领域工作。 基本概念:模型、训练和推理 机器学习过程旨在开发能够进行准确推理、做出逻辑决策并展现类人智能的模型。训练阶段涉及准备选定数据并优化响应以实现最佳性能。在推理阶段,训练好的模型分析新数据,应用优化后的模式识别,并自动生成逻辑响应。本节提供了对模型、训练和推理的基础理解。 模型 在机器学习(ML)的语境下,一个模型代表了一组被训练以识别模式和预测新、未见数据中一致关系的算法。例如,模型用途可能包括预测天气、识别图像以及根据用户行为提供高度个性化的电子商务体验。 以下模型代表早期模型类型(欲了解更近期的模型,请参阅下一节,标题为“自2017年以来的人工智能演变”): 监督学习模型 监督学习模型从经过批准的示例中学习。例如,一个监督学习模型可以根据包含相同对象相似表示的图像,视觉上识别出该对象。 非监督学习模型 无监督学习模型在未标记数据中寻找隐藏的模式或分组。技术包括聚类(将相似数据点分组)和降低数据复杂性(简化数据以实现更有效的分析)。 强化学习模型 强化学习模型通过与环境的互动来学习——反馈被登记为奖励或惩罚。这类模型在游戏和机器人等领域得到应用。 培训 训练阶段教会模型进行准确的预测。此阶段包括在要求模型做出预测之前,将模型暴露于一个预定的数据集。随后进行参数调整,有助于最小化错误。 训练模型涉及多个阶段: 数据收集 利益相关者,如机器学习工程师和数据科学家,必须收集和整理与模型最终目的相关的大量且多样化的数据集。 数据预处理 数据预处理涉及对数据进行清理和转换,以便为训练做准备。这可能包括识别数据间隙和填充缺失值,对相似变量进行归一化以提高学习效率,以及将数据分为训练集(用于训练模型)和验证集(用于评估模型性能)。 培训 培训数据表 猫 Deep习 架 狗 猫 从现有数据中学习新能力 学框 模型选择 模型选择包括多个考量因素。例如,大型 、标注数据集可能适合神经网络。在多个模型之间进行迭代测试可以帮助评估和确定最佳匹配模型以达到最佳性能。 版权所有©2024AFL。保留所有权利。 优化 首先,机器学习工程师和数据科学家必须定义一个损失函数——一个衡量预测准确性的性能指标。接下来,算法会反复调整和更新模型的参数以实现收敛——即使经过多次参数调整,损失函数也不再显著改善。 评估 最终阶段可能包括多个阶段。例如,工程师可以使用验证数据来获取无偏的性能评估。这意味着要检查过度拟合(训练数据表现良好,验证数据表现不佳)和欠拟合(整体表现不佳)。常见的解决方案包括正则化(即,对过度镜像训练数据添加惩罚)、dropout(即,随机移除数据子集以防止过度依赖)和交叉验证(即,分割并交叉引用训练和验证数据集,再次以防止过度依赖)。 版权所有©2024AFL。保留所有权利。5 推断 推断阶段需要训练好的模型基于新的、未见过的数据进行预测。这是在模型可以自信地应用于现实世界之前,训练和验证的最后阶段。 推理过程包括:输入处理 这一步骤的目的是通过向模型中输入与训练数据准备阶段所使用的方法相匹配的数据,以提高预测准确度。例如,采用相同的方法处理缺失值(例如,用众数或中位数填充缺失值)可以确保有效的模型输入处理,从而提高一致性。 推断 将此能力应用于新数据 新数据 ? 预测 在此阶段,该模型必须处理新的、未见过的数据(无论是单个数据点还是数据批次 )并在实时内做出预测或提供有价值的见解。 训练模型优化以提升性能 应用程序或服务 特点能力 后期处理 后处理阶段包括几个不同的阶段,用于精炼输出。例如,结合多个预测以创建 一个过滤的、更准确的最终预测。猫 版权所有©2024AFL。保留所有权利。 关于人工智能和超大规模数据中心主题的进一步阅读,请参阅我们最新的电子书: 超大规模:人工智能海啸 扫描下载 电子书: 6 6版权所有©2024AFL。保留所有权利。版权所有©2024AFL。保留所有权利。 人工智能自2017年以来的演变 2017年标志着深度学习(DL)领域多个重要里程碑的实现——特别是在语音识别和图像识别方面 。大规模标注数据集的日益可用性与行业在机器学习(ML)训练技术方面的进步相结合,使得模型学习效率得到了提升。 例如,卷积神经网络(CNNs–专注于图像识别的图案检测和分类的特殊深度学习算法)和循环神经网络(RNNs–利用先前输入的记忆来为顺序数据,如自然语言,提供当前预测的深度学习模型)的改进,使得从2012年的15.3%的错误率有所降低。12017年仅2.3%2-更低的错误率转化为更少的预测错误,从而有益于结果。 同样,深度学习模型在语音识别领域的性能得到提升,微软研究人员在2017年实现了5.1%的对话语音里程碑。3人类parity词错误率。这些前所未有的新水平强调了人工智能在各个应用中的变革性和进步潜力。 引言:谷歌Transformer模型简➴ 2017年出版,“注意力即所需”4(Vaswanietal)➴绍了Transformer模型,这可能是当时新兴人工智能技术领域的突出突破性进展。由谷歌的八位科学家呈现的这篇论文概述了一种新的深度学习架构方法——基于2014年的注意力机制(Bahdanauetal)。自从那时起,Transformer模型已经成为LLM架构设计的基石,为现代人工智能应用如谷歌的Bard——于2024年2月8日更名为Gemini——的发展铺平了道路。 变压器模型在革命性发展后将焦点完全转移到注意力机制上,消除了行业对循环神经网络(RNNs)和卷积神经网络(CNNs)的依赖。其即时影响包括自然语言处理(NLP)方面的重大进步。 变压器架构 然而,与RNNs和LSTMs按顺序处理数据流不同,Transformers同时处理有序标记(即同时管理输入数据的所有部分,而不是一个接一个),从而提高了并行化和效率,以加速训练和推理过程中的开发周期。 Transformer模型采用自注意力机制,使序列标记相对于彼此进行分析,从而提高训练速度(此方法还使模型能够捕捉数据中的长距离依赖关系)。 1.PyTorch 2.Statista 3.Microsoft 4.arXiv 自2017年以来,Transformer架构已成为支持自然语言编程(NLP)领域现代最先进进展的主要、基础模型类型——例如BERT和GPT。这一AI领域的关键时刻为AI技术的广泛快速采用及其随后的大规模投资奠定了基础。 版权所有©2024AFL。保留所有权利。77 趋势:转向更大的AI模型 随着时间的推移,模型参数数量的显著增加(从早期拥有数百万参数的模型转变为现代拥有数十亿甚至数万亿参数的模型)标志着向更大规模AI模型的趋势。例如,2019年发布的OpenAI的GPT-2拥有15亿参数。5参数 。然而,一年后,2020年的GPT-3模型远远超过了这个数字,达到了1750亿参数。到2023年,GPT-4的发布标志着模型参数的又一次里程碑式增长,估计有1800亿参数。 日益增长的训练数据量和复杂人工智能过程所需的计算能力与人工智能模型规模的行业增长相平行——OpenAI报告称,自2012年以来,管理人工智能模型所需的计算能力每3.4个月翻一番6同样,最近全球数据量的激增促使大量数据集用于训练得到广泛应用。 在2010年至2011年期间,全球互联网上创建的总新数据从2泽字节增长到5泽字节。72019年至2020年期间 ,新增数据的总量从41泽字节增长至64泽字节。7预测显示,2024年至2028年间,该数字将从149泽字节 增长到394泽字节。7. 2024-2028 2019-2020 2010-2011 149ZB-394ZB 41ZB-64ZB 2ZB-5ZB 这些数据突出了在人工智能发展前景中存在的巨大潜力和显著的挑战——例如存储和可扩展网络解决方案等方面——的前景。 版权所有©2024AFL。保留所有权利。 市场规模与投资 在2023年,全球人工智能市场价值达到约1966.3亿美元。8,预计在2024年至2030年间的复合年增长率(CAGR)为36.6%。推动这一增长的因素包括持续的研究和创新,尤其是在深度学习(DL)、自然语言处理(NLP)和生成式人工智能(generativeAI)领域,所谓的“大科技公司”包括微软、Meta和亚马逊预计将投资1万亿美元。9在未来几年内,人工智能领域。 学术贡献与产业贡献对比 学术界和人工智能产业对AI模型开发都做出了显著贡献,每个领域都发挥着独特、独立而又相互补充的作用 。 历史上,由学术界驱动的AI基础研究专注于理论进步和长期创新。然而,对AI技术的需求巨大,导致产业而非学术界做出了回应,模型规模扩大了29倍。10相较于学术界的模型数量。在2023年,行业产生的模型数 量达到了5111与学术界支持的模型数量相比,后者达到了15(学术界与工业界的合作也导致了21个模型的 出现)。11显著的模型。大量的金融资源和计算硬件的可用性意味着私营公司可以加速人工智能的进步。 全球 格局 5.OpenAI6.MITTechnologyReview7.Statista8.GrandViewResearch9.Investopedia 10.MITSloan11.人工智能少指数关键国家在人工智能研究和开发领域处于世界领先地位。美国位居前列,拥有2490亿美元的投资。12在 数报告2024,斯坦福12.Tech opedia13.国际贸易管理局私人融资方面,并且几乎60%。12 美国顶尖人工智能