您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:Serverless+AI创新发展研讨会 - 发现报告

Serverless+AI创新发展研讨会

2025-06-12-中国信通院刘***
AI智能总结
查看更多
Serverless+AI创新发展研讨会

目录01.标准编制背景 标准编制思路及主要内容 下一步工作计划 Part One标准编制背景 n与国家政策内涵异曲同工,弹性架构激活普惠算力新范式。政策、市场交织驱动,Serverless标准体系亟需深化完善(1/2)2025年5月,工信部发布《算力互联互通行动计划》,该计划提出到2026年建立较为完备的算力互联互通标准、标识和规则体系;到2028年基本实现全国公共算力标准化互联。2023年12月,国家发改委等5部门联合印发《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,提出到2025年底,普惠易用、绿色安全的综合算力基础设施体系初步成型,东西部算力协同调度机制逐步完善等目标。算力中心A统一调度算力互联互通通过整合算力资源经过统一调度平台提供算力服务。从用户角度看,无论是算力互联互通还是Serverless,在资源测都能够提供“无限”算力,无需担心资源数量的问题。•算力互联互通是一个巨大的Serverless资源池。•Serverless平台是一个微观的算力互联互通平台。 nAI与Serverless的双向赋能:互为驱动,共创未来政策、市场交织驱动,Serverless标准体系亟需深化完善(2/2)0201AI技术深度参与Serverless资源调度策略,通过动态学习与预测能力优化资源利用率及系统稳定性,形成双向驱动的技术闭环。AI增强Serverless能力AI应用开发周期长、资源浪费及高运维成本问题,推动市场依赖Serverless轻量化弹性架构,实现资源按需分配与自动伸缩,降低开发门槛与闲置损耗。AI驱动下Serverless的刚需《2025中国Serverless用户调查》:是否考虑Serverless方式承载AI任务根据中国信通院发起的2025中国Serverless用户调查数据显示:超六成调查用户所在团队已经或考虑使用Serverless架构承载AI任务。某企业自主创新的FoldFormerAI模型可在线持续预测用户业务负载,提前进行实例预热,达到85%~95%准确率,大大降低了冷启动概率。数据来源:Netty之家 Serverless拓展至容器、PaaS和边缘计算,服务形态更加多样。例如,阿里云SAE、华为云CCI、GoogleCloudRun等容器化产品发布;Knative成为CNCF孵化项目;各厂商上线Serverless应用托管与边缘服务,如AWSAppRunner、FastlyCompute@Edge。02012006年,Fotango推出Zimki平台提供按需服务;2012年Iron.io副总裁首次提出“Serverless”概念。Serverless理念初步形成,开始探索将服务器管理抽象化,尝试实现资源的按需使用与自动伸缩。Serverless概念开始发酵(2006年–2012年)Serverless进入快速发展期,函数即服务(FaaS)成为主流,开源生态初步形成。例如,2014年AWS推出Lambda,IBM、Google、Microsoft陆续发布FaaS产品;国内云厂商开始布局;AWSFargate、Lambda@Edge等推动Serverless向容器与边缘场景延伸。Serverless迅猛发展(2014年–2018年)nServerless内涵愈加丰富:历经数十年发展,Serverless已从早期的函数即服务扩展至容器、边缘计算与AI等全场景能力,成为云原生应用构建的重要基础。n与AI协同发展的必然趋势:人工智能的发展对弹性算力与事件驱动提出新要求,Serverless天然契合其特性,正成为新一代智能应用的重要承载形态。Serverless形态逐渐丰富(2018年–2022年)当智能无需服务器:AI×Serverless的共生方程式 Serverless加速与大模型、AI推理、异构算力融合,推动智能化应用部署。例如,AWS、阿里云、百度智能云等推出AIServerless服务,支持模型弹性推理与自动扩缩,广泛应用于AIGC、模型服务化等新兴场景。Serverless加速融合人工智能(2023年至今)0403 Part Two标准编制思路及主要内容 Serverless+AI系列标准编制情况n“Serverless+AI”系列标准聚焦AI发展对Serverless的影响,梳理AI应用对弹性计算、异构算力支持、模型调用等方面提出的新需求,从计算资源、应用管理、模型管理三大维度切入,明确Serverless平台在支撑AI场景下所需具备的技术能力和服务规范。n适用于为Serverless平台的设计提供参考,也适用于衡量已有Serverless平台的建设水平。2025年2月初:发布“AI+Serverless”体系研究工作启动新闻,正式启动相关研究工作2025年2月-2025年3月:针对近10家单位开展点对点调研走访,梳理行业现状,摸清行业发展规划,确定标准框架2025年3月—5月:开展2次集中研讨会,十余次小范围研讨会,持续完善与打磨标准内容2025年6月:”Serverless+AI“系列标准(计算资源和应用开发)定稿并正式发布编制历程 计算资源编制组应用开发模型管理阿里云、火山引擎、AWS、联通软研院、华为云、中移杭研、中电金信、九章云极、电信、农行、工行、浪潮数据阿里云、火山引擎、AWS、华为云、中移杭研、中电金信、九章云极、四川长虹九章云极、阿里云、火山引擎、联通软研院、AWS、中电金信、华为云、中移杭研 Serverless+AI系列标准简介计算资源基于人工智能的服务器无感知能力要求系列标准计算资源适配可观测性应用管理应用开发开发模式代码和函数管理开发调式能力应用测试性能负载测试兼容性测试部署、运行与运维自动化部署可观测性智能运维单域度量:衡量”Serverless+AI“单个域的能力水平。评估特定模块的技术成效与落地情况。完整度量:用于系统评估“Serverless+AI”在计算支撑、模型管理、平台服务三个核心能力域的综合能力水平,适用于全栈建设的单位,明确优化方向或验证整体建设成效。 以推动“Serverless+AI”融合能力提升、促进智能化应用高效落地为目标,该系列标准彰显“三重”核心价值:多维度把脉:系统化评估Serverless在支撑AI应用过程中的关键能力水平,便于行业内横向比较。问题定位精确:深入剖析在算力支撑、模型管理、应用开发等方面的能力要求,助力精准化能力诊断。引导式演进:明确优化路径与能力演进建议,促进Serverless持续升级,支撑更广泛的AI场景应用部署。  计算资源-计算资源适配(1/5)Ø计算资源适配衡量平台对异构算力资源的接入、抽象、封装与统一管理能力,确保多类型计算资源的高效协同与透明调用。行业现状AI业务对底层计算资源的异构性和适配能力提出更高要求,平台需支持多种算力类型的统一接入和智能调度。当前挑战•兼容性不足:不同厂商、架构的GPU接口不一致,接入与统一管理难度大。•抽象能力弱:缺乏统一资源视图,开发负担大。•资源利用率低:异构资源按任务静态绑定,难以实现灵活调度与动态复用。•协同能力差:资源池化与虚拟化封装能力薄弱,无法支撑大规模并发调用场景。解决方案通过标准化驱动接口、资源虚拟化与池化技术,构建统一的算力接入与调度框架,提升对GPU等异构资源的兼容性与利用率。CPUGPUNPUTPU...应用方 资源兼容性:支持多类型算力资源的统一接入与标准化管理能力。ü支持异构资源统一识别与接入ü实现平台内算力资源的高效整合资源无感知:上层任务对底层硬件配置与资源分配过程的透明化、零感知调用能力。ü平台自动完成资源绑定与环境初始化ü开发者调用无硬件依赖、环境一致性保障ü实现任务运行过程对资源调度透明资源分配与管理:对计算资源的精细划分、动态伸缩、隔离控制与监控。ü支持精细化资源分配与任务级隔离ü提供配额、优先级与弹性伸缩策略ü实时监控与动态调整资源使用资源协调:多云、边缘等分布式环境中资源的统一调度与任务的高效协同执行能力。ü跨多云与边缘统一调度模型任务ü就近执行低延迟任务,保障服务性能ü确保多源环境下的数据一致性与传输可靠 计算资源-资源调度与伸缩(2/5)Ø资源调度与伸缩聚焦资源在多任务高并发场景下的调度效率与弹性响应能力,评估其自动扩缩、优先级控制与智能分配水平。行业现状AI任务请求呈现周期性波动,资源调度系统亟需提升自动化伸缩与智能决策能力。当前挑战•策略单一:现有资源调度策略局限,难以适应AI业务复杂性。•扩缩容滞后:缺乏实时负载感知与预测能力,业务突发时资源响应不及时。•优先级失衡:资源保障关键任务优先运行能力有待提高,服务体验不稳定。•多租户干扰:租户间资源隔离不足,导致高并发下出现性能干扰与争抢现象。解决方案基于业务负载动态感知与历史趋势预测,构建多策略联合调度与自动扩缩容机制,保障任务高并发下的服务连续性与优先性。 弹性伸缩策略:根据业务负载调整资源供给,支持多种自动扩缩容触发机制。ü多维指标驱动自动扩缩容ü横向与纵向伸缩并行调控ü预测式策略满足业务高峰负载均衡与调度策略:提供多样化调度算法,基于任务级别策略分配请求。ü多种调度算法灵活组合ü实例健康检测与任务优先分发ü并发感知与预热策略提升稳定性计算资源调度:提供资源级别策略,提升整体算力利用效率。ü调度优化算法提升装箱率ü任务分片、抢占与动态迁移ü调度队列可视与任务状态展示多租户管理:管理不同租户间的资源隔离、权限分配与独立计量,保障多租环境公平与稳定。ü租户级资源隔离与配额控制ü租户维度监控与权限管理ü临时超配审批与独立计费通道 计算资源-性能优化(3/5)Ø性能优化衡量平台在模型资源使用优化策略和网络能力等方面的效率,优化冷启动与资源占用。行业现状AI推理任务对时延要求高,服务冷启动延迟问题突出,模型加载与任务初始化效率成为性能瓶颈。当前挑战•冷启动时延高:模型加载、实例启动慢,影响AI服务首次响应效率•资源预热缺失:平台缺乏预热策略,无法基于流量趋势提前拉起热实例•缓存机制不完善:模型与中间数据缓存能力弱,无法有效复用或合理淘汰•性能不可控:预加载/缓存策略无统一标准,造成推理效率随时间波动大解决方案通过模型预加载、热实例预热、分层缓存和任务感知调度等策略,并配合多种网络策略,有效减少冷启动时延并提升整体服务响应能力。 模型优化策略:聚焦模型在资源测的优化策略,提升模型加载速度。模型预加载ü服务级模型预加载与复用ü加载策略与版本绑定机制ü降低首次调用的冷启动时延模型预热机制ü维持热实例池应对突发负载ü提供定时、策略驱动的预热触发方式ü实现冷热请求自动分流模型缓存开销ü多级缓存结构管理模型/权重等内容ü淘汰策略与缓存清理告警ü缓存命中率与开销指标监控网络能力:提供多种网络服务能力,保障AI服务高性能网络需求。ü弹性IP与内外网带宽管理ü适配RDMA等高性能通信协议ü全链路数据审计与限流机制 计算资源-可观测性(4/5)和计量计费(5/5)可观测性:建立资源、任务、模型等多维指标的监控体系,支撑实时告警与趋势分析。ü资源、模型、任务多维监控指标ü运行异常自动告警与联动响应ü集成Prometheus等主流监控框架Ø可观测性评估平台对算力资源与AI服务全生命周期的监控能力,覆盖任务状态、资源使用、告警联动与趋势分析。Ø计量计费评估平台对资源使用行为的计量精度与计费灵活性,支持多种模式组合与成本可视化分析。行业现状Serverless架构下,算力资源使用状态难以全面掌握,难以精细化监控和全链路监控。当前挑战•指标覆盖不全:监控指标多聚焦主机资源,缺乏AI任务级与模型级观测能力。•分析维度单一:无法按租户、任务、模型等多维度拆解性能瓶颈。•联动机制缺失:告警响应机制与扩缩容、调度调整缺乏联动策略。•预测能力不足:历史数据利用率低,无法进行性能趋势预判与容量规划。解决方案建立从算力资源到模型任务的全链路监控体系,提供多维指标采集、趋势分析与智能告警联动能力,支撑问题快速定位与自动响应。计量计费:支持多种计费