您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [思科AI就绪]:2024思科AI就绪数据中心白皮书-Cisco - 发现报告

2024思科AI就绪数据中心白皮书-Cisco

信息技术 2024-12-12 - 思科AI就绪 严宏志19905053625
报告封面

目录 2024思科人工智能就绪指数报告________________________________3 企业部署AI的压力______________________________________________4 企业部署AI的挑战______________________________________________5 面向企业的AI就绪数据中心解决方案_____________________________7 AI功能区______________________________________________________7存储功能区____________________________________________________8业务应用功能区_________________________________________________8 面向人工智能服务提供商的AI就绪数据中心解决方案________________10 思科千卡GPU AI网络典型架构____________________________________12 思科万卡GPU AI网络典型架构____________________________________12 思科路由光网络:构建十万卡AI数据中心互联网络架构__________________13 行业参考案例______________________________________________15 制造参考案例__________________________________________________15 金融参考案例__________________________________________________16 教育参考案例__________________________________________________17 社交电商参考案例______________________________________________19 智能驾驶参考案例______________________________________________20 大模型服务商参考案例___________________________________________22 思科AI就绪数据中心 2024思科人工智能就绪指数报告 人工智能在过去几年一直是业界主导的主题。它越来越多地出现在战略更新、收益表和几乎所有利益相关方的沟通交流中。以目前的大规模影响水平,人工智能很可能在技术颠覆的程度上超越了云甚至互联网。但是,随着企业对人工智能的了解越来越多,他们开始意识到在如何采用、部署和充分利用其功能等方面并没有像想象的那样做好准备。 2024思科人工智能就绪指数报告是用于衡量企业的人工智能就绪情况,包括六大支柱:战略、基础设施、数据、监管、人才和文化。根据企业就绪分数,将企业分为四个级别:标兵(充分准备)、追逐者(准备充分)、关注者(准备有限)和落后者(毫无准备)。根据指数采访的数据显示,多数企业领导者认为他们在实现人工智能的战略目标方面进展不够理想。企业将大量资金用于人工智能,50%的受访者表示,他们当前的IT预算中有70%专用于人工智能。在我们的调查中,许多受访者坦言,他们的人工智能投资尚未达到预期效果。近50%的受访者表示,取得的成果低于预期。 调查结果表明,虽然企业渴望采用人工智能,但是仍然面临部署的压力和挑战。 企业部署AI的压力 •几乎所有公司(98%)都感到过去一年中部署AI的紧迫性增加。 •50%的公司表示,这种紧迫感主要来源于CEO和领导团队的推动,高于其他因素。 •85%的公司认为,他们只有18个月的时间来展示AI的影响,否则将面临失去竞争优势的风险。超过一半(59%)的公司认为只有12个月。 •然而目前只有13%的公司完全准备好抓住AI的潜力,比一年前的14%有所下降。 •鉴于市场的快速演变以及AI预计对企业产生的重大影响,紧迫性和能力之间的差距尤其令人震惊。 企业部署AI的挑战 •网络不能满足AI的工作负载的要求: o基础设施就绪程度在计算、数据中心网络性能、网络安全等方面准备不足o93%的公司预测,随着AI技术的部署,基础设施工作负载将增加 •企业在基础设施准备方面的能力: o缺乏具备构建、扩展和维护所需IT基础设施技能的专业人才o获取所需技术和解决方案的交付周期较长 •企业在防范恶意行为者攻击AI应用的风险: oAI工作负载带来的网络安全风险oAI和攻击技术在不断进化,企业可能难以及时识别新型攻击手段 针对企业在部署人工智能过程中面临的多重挑战,思科提供了AI就绪型数据中心解决方案,旨在助力不同行业的客户应对复杂需求。 针对不同行业的特殊需求,思科AI就绪数据中心方案提供高度定制化的架构设计,支持从模型训练到推理的全流程优化。无论是制造,金融,汽车等企业级客户,还是大语言模型提供商或AI算力服务商,思科都能提供精准匹配的技术支持。企业不仅能够快速实现AI业务落地,还能以更低的风险和成本加速数字化转型。 参考资料: 1.Cisco 2024 AI Readiness Indexhttps://www.cisco.com/c/m/en_us/solutions/ai/readiness-index.html 思科AI就绪数据中心 面向企业的AI就绪数据中心解决方案 生成式AI正以惊人的速度发展,2024年全球生成式AI市场预计达到435亿美元,同比增长约79%,其应用覆盖医疗、金融、营销等多个行业,成为推动数字化转型的重要引擎。 但AI、特别是生成式AI的投资比较大(8卡机200-300万元,千卡集群光算力就要2-3亿元),在没有明确的行业AI杀手级应用出现之前,大部分企业的CxO一方面因为巨大投入和成本效益的落差而对AI持审慎态度,另一方面又担心在AI方面的迟疑会导致落后于其他竞争对手。 在这两个方面因素的驱动下,一种新型的数据中心——AI就绪的数据中心(AI-ReadyDC)应运而生。首先从架构来看,它包括了三个功能区:AI功能区,存储功能区和业务应用功能区。 AI功能区 •企业组织的更注重AI算力的投资回报率,因而趋向更加小型化和集约化•小参数规模、高知识密度的蒸馏模型取得了长足进步,再加上企业通过增强检索生成技术(RAG)挂接本地知识库,能产生出与超大模型近似的优质输出效果,也为这种小型集约化的AI架构创造了技术条件•小型集约化架构可以与现有架构融合共用基础设施,进一步降低了初始AI的投入,并可在将来AI向更大规模演进时从现有架构中平滑迁移、弹性扩容 存储功能区 •AI训练,微调所需的数据输入和AI推理所需的企业实时数据,会对数据存储提出更大的挑战 •企业未来分布式存储需要更高的带宽、更低的延时和无损的互连质量 业务应用功能区 •大量的新兴AI应用都采用云原生微服务模式,相比传统的应用架构对安全和运维提出了更高的要求 因此AI就绪数据中心具有如下三个特征: •融入现有架构,与现有架构同构,可以弹性伸缩的高度集约化训推一体的AI数据中心架构•高带宽、低延时、无损且可弹性扩容的分布式存储架构•可以对基于云原生微服务架构的AI应用提供可视化和安全的数据中心架构 资料链接: 1.Cisco Validated Design for Data Center Networking Blueprint for AI/MLApplicationshttps://www.cisco.com/c/en/us/td/docs/dcn/whitepapers/cvd-for-data-center-networking-blueprint-for-ai.html 2.Cisco Data Center Networking Blueprint for AI/ML Applicationshttps://www.cisco.com/c/en/us/td/docs/dcn/whitepapers/cisco-data-center-networking-blueprint-for-ai-ml-applications.html 3.Cisco Data Center Networking Solutions: Addressing the Challenges ofAI/ML Infrastructure https://www.cisco.com/c/en/us/td/docs/dcn/whitepapers/cisco-addressing-ai-ml-network-challenges.html 4.RoCE Storage Implementation over NX-OS VXLAN Fabrics https://www.cisco.com/c/en/us/td/docs/dcn/whitepapers/roce-storage-implementation-over-nxos-vxlan-fabrics.html 思科AI就绪数据中心 面向人工智能服务提供商的AI就绪数据中心解决方案 思科多年来和国内外众多AI算力服务商和云服务商密切合作,共同致力构建高性能的AI算力平台,超大规模的算力中心建设面临众多挑战,这主要包括: •基础设施成本和能效:建设和维护高性能计算基础设施需要巨大的投资,包括硬件采购、设施建设和持续的电力供应。此外,AI计算通常需要大量的能耗,提升能效以降低运营成本和环境影响是一个重要的挑战。 •网络延迟和带宽限制:为了支持大规模的AI计算和数据传输,网络的延迟和带宽成为瓶颈。尤其是在分布式计算环境中,网络性能直接影响AI应用的效率和响应速度。 •跨越多个数据中心的超级AI训练集群:随着算力需求向10万卡GPU演进,单体机房由于电力等因素的制约,无法容纳大容量GPU布放。客户开始构建跨多个数据中心的AI算力集群,而如何为多个算力中心提供充足的互联带宽并确保更低的时延,在高性能和低成本之间找到平衡正在面临严峻的挑战。 思科通过自研高性能AI交换路由芯片,AI优化网络设备与架构,IP+光传输融合的路由光网络等多种技术创新,为客户提供面向AI场景的网络解决方案。AI专用51.2T和25.6T网络芯片以及对应的网络设备可以支持更高的网络带宽,优化的两层AI网络架构可以大规模减少设备与光模块的需求数量,一方面降低了数据中心建设成本,另一方面大幅度的降低功耗,从而降低客户AI数据中心的整体拥有成本。 思科在SiliconOne上的投入与研发最近取得了全新进展,芯片产品家族又添新成员。全新处理器包括G202和G200,能够实现25.6Tbps和51.2Tbps的转发性能。两款处理器建立在CiscoG100统一架构的技术基础之上实现突破创新。针对高带宽、超大规模数据中心以及人工智能(AI)和机器学习(ML)高性能网络进行了全面优化,构建无损、低延迟和高能效的AI数据中心。 G200芯片采用业界特有的512Radix硬件设计,相比较其他芯片,G200可以在两层Spine/Leaf的网络架构下支持高达三万两千个400GE的网络接口,支持构建三万两千个GPU的训练网络。这种独特的架构设计可以减少40%的交换机和50%的互联高速光模块,并合计可以节约1兆瓦的能源消耗,大幅度的降低AI算力中心的建设和运营成本。 思科千卡GPU AI网络典型架构 思科万卡GPU AI网络典型架构 思科在软件层面提供了全栈的开放能力,无论商业的IOSXR,NX-OS网络操作系统还是SONiC开源系统,都能够提供相应的开放接口以帮助客户满足不 同应用的可编程网络需求。同时,思科也将芯片开放给其合作伙伴以及客户,帮助他们基于思科芯片进行定制化创新开发。 思科路由光网络:构建十万卡AI数据中心互联网络架构 芯