关于SmartX 北京志凌海纳科技股份有限公司(SmartX)成⽴于2013年,是专业的现代化IT基础设施产品与⽅案提供商。基于⾃主研发的分布式块存储,SmartX提供超融合、企业云基础设施、分布式存储、云原⽣存储等产品和服务,助⼒客户构建精简、敏捷、可靠、安全的IT基础设施,实现降本增效,服务业务创新,助⼒数字化转型。SmartX已服务交通银⾏、泰康保险集团、国泰君安证券、中信建投证券、海尔、京东⽅、中⼭⼀院、韩国SBS电视台、Cafe24等多个⾦融、制造、医疗⾏业领导者,并先后获评Gartner亚太区客户之选、IDC创新者。 了解更多有关SmartX的信息,请访问官⽅⽹站。 www.smartx.com 联系销售了解产品与服务,请在⼯作⽇9:00–18:00给我们来电。 400-116-5559 发送邮件向我们咨询产品或市场的更多信息。 info@smartx.com 获取最新技术资讯与⾏业客户实践,扫码关注微信公众号。 随着DeepSeek等⼤模型技术的迅猛发展,AI在企业中的应⽤已经从概念⾛向实践,并逐渐成为推动业务创新与发展的重要引擎。然⽽,AI应⽤的⼴泛使⽤也给企业的IT基础设施带来了前所未有的挑战。如何构建⼀个灵活、⾼性能、⾼资源利⽤率的AI基础设施,成为企业在数字化转型过程中亟待解决的问题。 基于此,本书通过三⼤章节,深⼊分析AI时代企业IT基础设施的建设需求与挑战,解读⾯向⼤模型与AI应⽤的超融合基础设施解决⽅案,并结合具体案例展示AI基础设施的落地架构与性能评测,旨在为企业IT决策者提供全⾯的参考与指导。 更新时间:2025年4⽉ ⽬录 企业级AI应⽤对IT基础架构有哪些要求.........................................................4⽣成式AI存储设施3⼤关键能⼒与部署⽅案....................................................5虚拟化vs.裸⾦属:AI时代应该在哪⾥运⾏容器?............................................9如何在企业内部快速部署DeepSeek:模型与软硬件⽅案评估.........................13 SmartX AI基础设施解决⽅案:⽀持DeepSeek等多种⼤模型........................16关键产品组件-SMTX Kubernetes服务:⽀持虚拟化与容器化AI⼯作负载..20关键超融合特性-GPU直通& vGPU...........................................................23SmartX x趋动科技:可提供AI算⼒池化的超融合平台联合解决⽅案..............28 第三章节:验证与测评...................................................................................................30 以SmartX AI基础设施⽀持AI营销助⼿.......................................................30多家医院实践分享:DeepSeek在医疗⾏业的变⾰与机遇...............................33某资管⽤户以超融合承载PostgreSQL和AI系统的性能评测.........................36从0构建企业知识库,可能没你想的那么简单................................................40 更多资源.......................................................................................................................47 第⼀章节:趋势与挑战 企业级AI应⽤对IT基础架构有哪些要求 点击链接阅读原⽂:⼀⽂解读⾯向AI应⽤的超融合基础设施解决⽅案 ⽬前,⼤部分企业⽤户都选择基于已训练好的⾏业⼤模型(在微调后)进⾏AI应⽤的开发,或直接在⽣产环境中使⽤已开发好的AI应⽤。虽然这些场景不需要⼤模型训练级别的算⼒⽀持,但仍对IT基础架构的性能、资源利⽤率、容器环境⽀持、多样化数据存储能⼒等⽅⾯有较⾼的要求。 阅读提示 随着越来越多⼤语⾔模型(LLM)在⾏业落地,不少企业已开始进⾏⽣成式AI应⽤的试点、开发,或在⽣产环境中试⽤AI应⽤。这些应⽤场景不仅要求强⼤的算⼒,还⾮常考验IT基础设施对GPU的⽀持能⼒、资源调度灵活性、混合负载⽀撑能⼒,以及可满⾜多样化数据的存储能⼒。 灵活的计算与存储资源调度 在进⾏AI应⽤开发时,不同开发组对GPU资源的需求量不同,⼀些开发任务也不会完全占⽤⼀块GPU卡的资源;在使⽤AI应⽤时,不同应⽤对GPU和存储的资源需求也不尽相同,且需求量可能变化频繁。这些都要求IT基础设施能够灵活切分、调度计算与存储资源,同时⽀持⾼性能CPU与GPU算⼒,在提升资源利⽤率的同时满⾜不同应⽤/开发任务的资源需求。 ⾼性能、低时延的存储⽀持 对⾏业⼤模型进⾏微调时使⽤的GPU规模较⼤,要求存储能够为GPU并⾏计算提供⾼性能、低时延的数据⽀持。AI应⽤的全流程也要⾯对多个数据源的⼤量数据读取/写⼊:源数据通过预处理,可参与到⼤模型的微调和推理过程,并对推理形成的⽂本/语⾳/视频数据进⾏保存和输出。这些⼯作都要求存储具备⾼速写⼊与读取能⼒。 多样化的数据存储⽀持 上述AI应⽤相关的⼯作流程中,需要同时处理结构化数据(如数据库)、半结构化数据(如⽇志)和⾮结构化数据(如图像和⽂本),要求IT基础设施能够⽀持适⽤于不同类型数据的不同存储技术。AI⼯作的不同环节使⽤存储数据的需求也各不相同,有些需要提供⾼速存储响应,另⼀些可能更需要共享读写能⼒。 虚拟化与容器化⼯作负载的统⼀⽀持 得益于Kubernetes的灵活调度能⼒,越来越多的AI应⽤正在采⽤容器化和云原⽣化的运⾏模式,⽽基于虚拟机运⾏的应⽤仍将⻓期存在,这就要求IT基础设施能够为虚拟化和容器环境提供统⼀⽀持和管理。 此外,为了⽀持AI应⽤的快速上线并跟随业务发展的规模,IT基础架构也应具备灵活扩展、简易运维、快速部署等能⼒。 ⽣成式AI存储设施3⼤关键能⼒与部署⽅案 点击链接阅读原⽂:趋势洞察|⽣成式AI存储设施3⼤关键能⼒与部署⽅案 ⽬前,不少企业都开始开发或者使⽤AI应⽤⽀持业务发展。不过在进⾏AI基础设施规划时,很多IT决策者只关注到AI场景对于算⼒的需求,⽽忽视了存储⽅案的规划,系统难以及时将数据传输给GPU,反⽽浪费了重要的计算资源。对此,Gartner在《Top Storage Recommendations to SupportGenerative AI》报告中,解读了⽣成式AI(GenAI)在存储层⾯的3⼤⾼级功能需求,并针对不同⽤户的使⽤场景提供了存储建设与部署⽅案。 阅读提示 Gartner报告指出,除了对算⼒的需求外,⽣成式AI对底层基础设施提出了更⾼要求:多元化数据存储能⼒、强劲的存储性能、全局数据管理能⼒,企业需要根据数据训练的规模和需求选择合适的存储部署⽅案。 视频资料:AI存储3⼤关键能⼒与3种部署⽅案 重要建议 -直接使⽤现成的LLM或尝试部署⽣成式AI时,建议采⽤⼀体式AI融合存储⽅案。-使⽤既有企业存储平台(SAN、NAS、对象存储或HCI)进⾏⼩规模数据训练或⽀持训练好的模型。-⼤规模使⽤⽣成式AI应⽤时,需要搭建⼀个端到端的存储基础设施,满⾜⽣成式AI⼯作流程中各个阶段(从数据收集、训练、微调、推理到归档)在存储⽅⾯的需求。存储设施需要能够对各个源端(包括数据中⼼、边缘和公有云)的数据进⾏灵活管理。-如果没有数据安全/合规⽅⾯的限制,或者计算和存储需求难以预估,可以使⽤公有云运⾏⽣成式AI应⽤。 Gartner预测 到2028年,75%使⽤⽣成式AI训练数据的企业都将部署单⼀存储平台进⾏数据存储,尽管这⼀⽐例在2024年仅有10%。 ⽣成式AI需要3⼤⾼级存储能⼒ ⽣成式AI应⽤对企业的底层存储设施提出了⼀些⾼级能⼒要求,主要包括以下3类: -多元化数据存储能⼒:企业需要以⼀套可扩展的数据湖存储平台,为所有⽤于AI模型训练的数据提供存储服务,不论这些数据是基于⽂件还是对象形式进⾏存储、对吞吐量或延迟是否敏感、⽂件是⼤是⼩、更侧重于元数据或是数据访问。-强劲的存储性能:存储⽅案需要通过⼀些功能特性来提供⾜够强⼤的性能,以保证整个AI训练阶段GPU能够被充分利⽤,并快速完成模型检查点和恢复过程。如果存储不能快速将数据投喂给GPU,就会出现GPU资源浪费的情况。-全局数据管理能⼒:由于AI模型训练或微调时可能会使⽤来⾃各个站点的数据,存储⽅案需要能够对本地机房、多云平台和边缘站点进⾏全局数据管理,避免数据复制带来的复杂运维与容量浪费。 想要获取这些能⼒,企业可能需要对存储设施进⾏现代化改造,这对于基于⼤规模数据进⾏新LLM模型训练的企业⽽⾔尤为迫切。虽然⼤多数企业可能并没有类似的需求,但⽀持⽣成式AI应⽤依旧需要存储层具备类似的⾼级功能或能⼒。 ⽣成式AI存储建设与部署⽅案 ⼤部分企业不需要搭建新的存储基础设施 根据Gartner的调研,在5种企业⽣成式AI部署模式中,仅有⼀种需要搭建底层模型或从头开始构建LLM;其余的4种部署模式,都是直接使⽤现成的、预先训练好的LLM,仅需要企业基于内部数据(有时也需要补充外部数据)、提示⼯程或数据检索技术来进⾏微调。也有越来越多的企业选择以⼩型语⾔模型(SLM)替代LLM——与使⽤数⼗亿参数的LLM相⽐,SLM通常仅需要不到1亿个参数——以便快速测试模型,并帮助⽤户在特定业务场景中快速看⻅ROI。 这也就意味着,在⼤多数情况下,企业并不需要为了⽣成式AI购买新的存储设施。不过如果企业的数据湖中还没有数据,可能还是需要构建⽮量数据库进⾏数据训练。当主要使⽤现有数据进⾏模型微调时,有两种存储部署⽅案: -购买专⽤的⼀体式GenAI解决⽅案。这些解决⽅案通常基于超融合架构,同时提供适⽤于AI应⽤规模的存储、计算和⽹络基础设施,以及训练好的LLM。-使⽤现有的存储基础设施。这⾥并不限制存储⽅案是⽂件、对象或是块存储,是外部存储、直连存储或是超融合存储。如果企业能够部署数据管理软件层,实现跨内部、边缘和/或公共云中的存储数据访问,则会更有帮助。 Gartner建议 -直接使⽤现成的LLM或尝试部署GenAI时,建议购买⼀体式GenAI融合存储⽅案。 -使⽤既有企业存储平台(SAN、NAS、DFS或HCI)进⾏⼩规模GenAI试点。-引⼊数据管理⽅案,以便在现有存储中实现通⽤访问,并⽀持⾃定义标记和基于元数据的搜索。-在考虑其他供应商的产品之前,先了解既有存储供应商的GenAI⽀持能⼒。⽬前很多供应商都在快速构建新功能,并推出针对GenAI的解决⽅案。 ⼤规模⽣成式AI部署需要可⽀持模型训练和推理的⾼级存储能⼒和全⾯数据管理能⼒ 第⼀批⼤型复杂的GenAI部署已经开始对存储设施提出了“既要⾼效、⼜要⾼性能”的多重需求。⼀些GenAI⼯作负载会带来PB级的数据量,GenAI⼯作流程的不同阶段也对存储性能和操作提出了不同的要求。对于这些⼯作负载,数据湖或分布式存储系统(如Hadoop和Spark)通常⽤于存储训练数据和中间输出。在训练、微调和推理时,基础设施栈重点需要提供针对性的GPU优化和⾼吞吐量。 存储是基础设施栈中⾄关重要的⻆⾊,选择何种存储⽅案的则取决于AI模型的⼤⼩。对于体量较⼩的AI模型,本地硬盘可能就可以满⾜需求。但⼤型模型通常需要基于对象存