您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:企业级 AI 应用开发:从技术选型到生产落地 - 发现报告

企业级 AI 应用开发:从技术选型到生产落地

2025-11-14阿里巴巴B***
企业级 AI 应用开发:从技术选型到生产落地

企业级AI应用开发:从技术选型到生产落地 黛忻 阿里云ServerlessAI团队 01企业级AI应用开发运行时选型 Contents目录 02Serverless AI运行时关键技术 03客户案例–Serverelss+AI让应用开发更简单 企业级AI应用开发运行时选型 01 AI原生范式对基础设施提出全新的要求 构建支持AI Agent的高效基础设施 Task-Driven Orchestration Embrace Uncertainty Agent-Centric State-First 基础设施的核心服务对象从“人类用户”转变为“自主Agent”,以Agent而非服务或API为中心 状态是Agent的“记忆”与“人格”载体,基础设施必须原生支持状态的持久化、低延迟访问与跨环境迁移 承认LLM输出的非确定性,通过基础设施能力降低风险,而非追求绝对可控,从“防御性编程”转向“容错自愈” 基础设施主动协调Agent完成目标,而非被动响应请求,Agent和Agent或者Agent和工具之间的协作依靠事件驱动和动态弹性 接受不确定性 以Agent为中心 AI时代开发者关注业务创新而非基础设施 Serverless是AI原生架构的最短实现路径 从Serverless到ServerlessAI ServerlessAI运行时是AI原生应用的最佳选择 Serverless AI运行时关键技术 02 函数计算FC:ServerlessAI运行时 0运维、轻量、经济、弹性 冷启动速度:FC毫秒~秒级,虚机数分钟,容器30+秒~数分钟 最小规格:FC0.05C128MB,虚机1C512MB,容器0.25C512MB Serverless AI运行时安全——资源强隔离 函数计算FC运行时 传统容器技术 普通容器用内核提供的namespace和cgroup做资源限制和隔离(从机器上圈了一部分资源给容器用),在安全性上存在不足: FC安全容器安全加固策略(核心是限制代码破坏范围): ✓安全容器提供基于虚拟机级别的隔离✓函数调度尽可能调度到同一台神龙服务器✓加固安全策略:端口封禁、命令行封禁等✓组件裁减:精简不必要驱动和内核接口,启动速度更快、资源占用更少✓实例回收:销毁重建,避免残留/tmp目录、日志、环境变量、进程等 容器内的进程在宿主机上可以看到容器和宿主机共用内核,可以对宿主机进行破坏 模型运行时关键技术 函数计算Serverless GPU相对虚拟/容器的核心优势:请求感知调度、毫秒级闲置唤醒、1/N卡切分使用、Serverless混合调度 请求载感知调度 模型运行时:GPU冷启动优化 函数计算首推Serverless GPU启动快照,实现毫秒级的首次推理响应,0->1首包耗时对比K8s GPU,从分钟级优化至毫秒级 实时/准实时在线推理服务的痛点 1.低时延:实时/准实时业务时延敏感,一般要求秒级响应,部分场景下需要毫秒级 2.高并发:高峰期突增的吞吐量可能导致系统性能下降 3.高成本:低峰期和小规格模型资源浪费,高峰期资源不足,成本优化难 4.低容错:小流量推理场景单卡容灾能力差,故障率高 模型运行时:模型加载加速 适用场景:<1GB的传统领域模型(CV/TTS),模型变更频率比较低模型加载加速方案:镜像加速预热+P2P镜像分发 模型随容器镜像分发 适用场景:模型文件放在OSS/NAS,应用程序通过挂载点访问。对模型大小没有限制。➢OSS:大量实例并行加载模型、需要本地冗余,或者多地域部署的场景。访问数量较少的大文件。➢NAS:需要极速的启动性能。 模型加载加速方案:模型下载加速。函数计算用OSS缓存常用的模型,下载服务会自动判断系统是否缓存过,已缓存会走OSS内网下载。下载本身通过分片下载,多线程/多函数实例下载做了一些优化。 智能体/工具运行时关键技术 函数计算FC:沙箱即服务、Session亲和/隔离架构、毫秒级启动与按需付费 业界领先的开箱即用、多语言代码安全执行引擎 沙箱即服务 服务化:提供CodeInterpreterAPI、BrowserAPI 内置开发环境:Python/Node.js/Java/PHP/Shell/.NET等50+多语言环境,支持OCI标准镜像和自定义运行时灵活扩展 业界首创Serverless级Session亲和/隔离架构 智能体运行时 开源开放:与AgentScope、LangChain、LlamaIndex等主流开发框架集成 毫秒级启动与按需付费:强隔离、突破性上下文保持,启动效率领先传统容器方案100倍,按需使用,按量付费,低峰缩0成本最优 会话管理—会话亲和&隔离 会话亲和 MCP场景强诉求。依赖连续会话状态,需确保同一用户请求始终路由至同一个实例,避免因实例切换导致SessionID丢失和工具调用失败,保障多轮交互连续性与可靠性。 支持MCP SSE /MCPStreamableHTTP/HeaderField/Cookie四种亲和类型。 会话隔离 AISandbox场景强诉求。一个用户会话(Session)独占并绑定一个函数实例。避免不同请求之间的数据残留和数据泄漏。 函数计算&MSENacos:轻松部署和管控MCPServer 核心痛点:部署运维成本高,MCP调试迭代必须重启,服务分散难管理,缺乏动态管控能力 函数计算:免运维、低成本、弹性 ➢免运维:无需关心基础设施,直接部署。➢弹性伸缩:按请求自动扩缩,支持0-N。➢低成本:按负载自动支持忙闲时计费,对稀疏调用非常友好。➢协议兼容:支持SSE / STDIO /Steamable。 MSENacos:统一管控,可维护 ➢自动服务注册发现:自动注册到指定MSENacos实例,统一服务发现,便于Agent客户端/AI网关动态寻址与调用。➢动态元信息管理:支持对工具描述、参数定义等元信息进行运行时更新,变更实时生效,无需重启服务。➢Tools动态开关:对特定Tool启用禁用,实现故障隔离/灰度控制。➢全链路集成:和AI网关、NacosMCP router无缝对接。 AI时代计费演进——从请求驱动到价值驱动 ServerlessAI计费模式 传统FaaS计费模式 价值:按实际资源消耗,精准区分忙闲时计费。消除长会话/低负载保活冗余成本,无缝支持AI强交互场景。 问题:为代码运行时刻付费,无请求时0成本。但长连接保活场景(如MCPServer/WebSocket)因低负载存活仍计费,成本高。 虚机/容器计费模式 问题:为实例的持续运行付费。无请求时不能缩0仍计费,资源空转成本高。 Sandbox实例动态挂载—从计算隔离到存储隔离延伸 Serverless AI解决方案 传统共享存储问题(虚机/容器/FaaS架构) ➢引入会话粒度度存储粘性,将会话和一个持久化的,归属特定租户的存储子目录进行强绑定。➢平台基于POSIX标准多租存储安全实践框架,落地层次化纵深防御体系 AgentCodeSandbox多租户数据共享,有安全问题。无法满足同一个函数的每个实例路径不同的需求。挂载存储路径是变化不确定的。 客户案例-Serverelss+AI让应用开发更简单 03 阿里内部案例—智能体/工具运行时最佳实践 魔搭社区、Qwen、百炼,大规模使用函数计算FC提供的Serverless运行时构建模型、智能体和AI工具 业界首个全生命周期MCP服务市场 ✓零改造将开源STDIOMCP升级为SSE/Streamable HTTP✓原子化解耦,MCPServer冷热分离,弹性伸缩RT抖动少✓MCP SSE亲和调度,闲置计费,低峰自动缩0成本最优 Serverless智能体运行时 实时/准实时推理场景—Serverless GPU解决方案 函数计算给吉利AI座舱的交互和娱乐功能提供大规模推理服务,共同打造大规模、高可用、高性能的推理引擎。场景覆盖:意图解析、文生图、情感TTS等。 痛点&挑战 ➢高性能:冷启动低延迟&模型预热、推理请求批量执行等。➢低成本:提升GPU资源利用率➢高可用:模型请求高可靠接入、推理服务高可靠、故障恢复。➢故障恢复策略:快速定位和恢复。 解决方案 基于FC+网关+可观测能力打造的AI原生架构,具备端到端高可用、高性能、低时延、性价比高的算力供给。预热实例+忙闲时自动计费、一站式集成、模型优雅上下线、多AZ等 客户价值 ➢算力成本:相比之前IaaSGPU资源供给,FC成本优化33%。➢算力集群简化维护:降低运维压力,让业务专注模型和业务本身。➢端到端高可用SLA99.99%(持续建设中):AI推理引擎的端到端可观测、Trace追踪、灰度发布,SRE保障机制等。 模型服务–生产实践 Serverless xAI,函数计算FC帮助企业跨越技术鸿沟,让模型服务兼具SaaS体验和自建优势 大型企业灵活可定制,加速业务AI创新 设计师定制个人工作助手 初创公司智能家居领域的潮流引领 客户原声 客户原声 客户原声 客户原声 Stable Diffusion ComfyUI Qwen/DeepSeek CosyVoice 基于函数计算FCSandbox构建智能体开发平台 客户痛点 ➢安全风险:AI代码风险未知,需强隔离➢成本压力:流量不可预期,资源常备成本高昂➢弹性瓶颈:突发流量扩容不及时,错失爆款良机 方案价值 ➢轻量级安全沙箱:提供轻量、快速、虚拟机级别强隔离的执行环境。➢Serverless降本:缩容到0以及根据请求/CPU真实负载的忙闲时智能计费,完美匹配AI应用的脉冲式调用,整体成本优化60%左右➢极致弹性:基于内存快照,1毫秒内从挂起状态极速恢复会话➢海量并发承载:数十万级函数轻量化管理支持项目级别的分享,支持C端用户爆点项目的可扩展;百万级Session超高并发,满足Agent轻量灵活与极速弹性 THANKSTHANKS FunctionAI:生成式AI的落地实践与案例分享 ——Serverless到ServerlessAI让AI应用开发更简单 世如(史明伟) 阿里云云原生—Serverless—函数计算&AI研发负责人 01ServerlessAI原生应用架构 Contents目录 02FunctionAI产品能力介绍 03ServerlessAI场景案例分享 AI应用组成核心抽象发生变化 AI应用研发的关注点发生变化 Serverless AI原生架构新范式 AI应用可观测:云监控2.0针对AI应用提供全栈智能可观测能力 FunctionAI:从算力到应用,AI全栈升级 魔搭社区、Qwen、百炼、PAI、Qoder,大规模使用函数计算FC提供的ServerlessAI运行时构建模型、智能体和工具 FCGPU 模型服务 AI应用 1.AgenticAI应用开发平台,低代码兼容dify性能提升10倍,高代码默认集成AgentScope、Langchain、LammaIndex、CrewAI等主流开发框架2.开箱即用、安全隔离、极致弹性的Serverless AI运行时与沙箱,平均TCO降60%3.集成健康检查、日志收集、监控告警,减少90%的人工运维工作量 1.开箱即用的ServerlessGPU服务,请求感知调度,缩容到0,3AZ容灾 1.丰富的模型广场开箱即用,支持魔搭、HugginFace以及自训练开源模型一键托管,ServerlessGPU成本更优 2.整卡/切卡,细粒度资源灵活售卖;毫秒级闲置唤醒技术,冷启动快百倍; 2.内置vLLM/SGLang等框架,支持DeepGPU/Nunchaku推理加速 3.常驻资源池+弹性资源混池,FC提供开箱即用的Serverless混合调度能力,更省成本,业界领先 3.DevPod模型开发/