行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

从AI Agent到模型推理：端到端AI可观测实践

2025-04-01阿里巴巴R***

AI智能总结

AI原生应用架构演进及痛点

AI应用生态蓬勃发展，涵盖GPT、Llama、Qwen等通用大模型及LangChain、LlamaIndex等应用编排框架，以及Coze、阿里云百炼、Hugging Face等服务平台。
AI应用面临数据质量、模型推理性能、成本控制等核心痛点，如推理性能慢、模型输出准确性、Token消耗控制等。

阿里云AI全栈可观测解决方案

架构包含GenAI应用大模型服务平台（MaaS）、AI平台（PaaS）、容器Kubernetes（CaaS）、智算服务器（IaaS），提供全栈统一监控、模型调用全链路诊断、模型日志评估分析等功能。
解决方案基于OpenTelemetry实现端到端可观测，包括Tracing（模型调用全链路诊断）、Metrics（模型性能分析、Token成本分析）、Logging（模型日志评估分析）。

大模型应用可观测技术实践

Tracing: 基于OpenTelemetry实现LLM ChatBot应用全链路追踪，记录Prompt、Input/Output、Token、TTFT等关键信息，并以会话串联用户交互问答过程。
Metrics: 关注TTFT、TPOT等指标，分析推理性能，并监控显存带宽利用率、GPU利用率等资源使用情况。
Logging: 基于OpenTelemetry Python Agent实现无侵入埋点，采集大模型领域语义规范数据，保障稳定高可用。
流式场景处理: 采用客户端分段采集+服务端合并还原的方式，平衡客户端性能与数据分析易用性。

Dify生产级部署及可观测最佳实践

Dify生产级部署建议：调整Nginx配置、增加PGSQL数据库连接池大小、使用Redis哨兵模式或消息队列、采用第三方向量数据库、使用外置可观测组件、使用云存储。
对比Dify原生可观测与OTel原生可观测，阿里云自研Python探针接入成本低、观测维度多、分析维度全面、观测链路端到端，性能和稳定性更优。

vLLM/SGLang推理性能可观测实战

通过端到端调用链分析和指标关联，排查vLLM/SGLang推理性能问题，如请求数量过多导致排队，建议增大推理引擎请求队列大小配置。

模型生成结果自动化评估系统

通过内置模板或自定义评估，实现模型生成结果的自动化定量/定性评估，如合规性检查、用户意图提取，提升生成效果。

MCP带来的变化和挑战

MCP（ModelContext Protocol）解决“N×M”集成问题，但多轮交互导致“熵增”，形成token黑洞，可观测是降低“熵增”的有效方法。

Serverless+AI全新云应用开发平台

Serverless+AI目标：降低成本、提升效率、满足定制需求，通过按需付费、极简运维、丰富的云服务集成等实现。
FunctionAI平台提供模型托管、模型服务、部署、应用、开发等功能，支持一键快速拉起AI应用，解决开发者困境。

FunctionAI开发范式

提供丰富的AI应用模版，支持一键部署服务、插拔业务、定制流程、二次开发，实现组装式研发。
Serverless运行时：极致弹性、按量付费、镜像加速，降低业务成本，提升开发效率。
流程服务：提供易用的流程式开发工具，支持业务拆分到函数粒度，资源利用率达100%，研发提效10倍。

FunctionAI架构及优势

第四代神龙架构，毫秒级弹性调度，内置可观测，支持100+云产品事件集成，应用中心50+热门应用模板。

函数服务

提供Web后端服务、业务消息处理、AI应用网关、应用场景等功能，支持HTTP触发、自定义域名、大数据ETL处理等。

模型服务

Serverless GPU提供GPU资源的按需和极速模式，降低AI落地成本，保证模型冷启动推理耗时，支持闲置模式、预留模式、无冷启动模式。

FunctionAI客户故事

支持设计师定制个人工作助手、开发者开发有趣的Web项目、初创公司自媒体、大型企业灵活可定制等场景。

Spring AI Alibaba Graph深入介绍

Spring AI提供基础AI抽象与能力，包括文本、语音、图片模型、多模态支持、任意模型适配、聊天记忆、Prompt声明、Tool工具等。
基于ChatClient的Single Agent 架构存在局限性，如工具选择困难、上下文过大、维护性差等。

面向复杂AI业务场景的解决方案

使用MultiAgent和Workflow模式解决复杂AI业务场景，支持低代码应用开发平台和开源multi-agent框架。

Spring AI Alibaba Graph示例

示例一：基于workflow的客户评价处理系统，通过预定义节点和条件边实现多层次分类。
示例二：实现ReActAgent的天气预报系统，结合推理和行动能力。
示例三：实现OpenManus通用智能体。

Spring AI Alibaba Graph设计理念

面向Java开发者的工作流、多智能体框架，支持流程构建和结果构建，与Langgraph、AutoGen、MetaGPT等框架对标。

Spring AI Alibaba Graph核心能力

工作流声明式API、Graph设计、上下文状态统一管理、记忆与持久存储、人类确认、流式输出、并行结点、嵌套Graph、支持工作流与多智能体、内置大量预置结点。

Spring AI Alibaba Graph规划

支持低代码平台百炼、Dify到高代码Graph的导出，配套本地可视化调试与可观测工具，内置更多通用多智能体Pattern。

从AIAgent到模型推理：端到端AI可观测实践 AI原生应用开发实战营深圳站望陶2025/04 1.AI原生应用架构演进及痛点2.阿里云AI全栈可观测解决方案3.大模型应用可观测技术实践4.Demo 蓬勃发展的AI应用生态 AI应用的痛点模型推理问题成本问题数据质量问题推理性能慢，服务器频繁超时，慢在哪里？模型输出的内容是否准确，是否合规？ Token消耗在哪些应用，哪些用户？如何进一步提升数据的质量和准确性？用的省用的好用起来一个典型的AI原生应用架构及可观测诉求模型生成结果评估模型调用全链路诊断 AI全栈统一监控构建统一日志分析平台，对模型调用日志进行二次评估分析，实现质量、安全、意图提取等语义检测。基于Prometheus构建AI全栈监控大盘，包括模型性能分析、Token成本分析、GPU资源异动分析等。基于OpenTelemetry Trace实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。 Tracing:模型调用全链路诊断 LLM Trace端到端全链路追踪一个典型的LLMChatBot应用架构 LLM ChatBot包含前端UI、对话服务、模型应用、模型服务、AI网关、向量数据库、外部Tool等众多组件。基于OpenTelemetry W3C协议实现LLM Trace端到端全链路追踪。详细记录每一次模型调用过程，包括Prompt、Input/Output、Token、TTFT（Time to first Token）等。面向LLM应用的领域化Trace语义以会话串联用户交互问答过程，以Trace承载应用全链路交互节点，定义领域化的操作语义、标准化存储以及可视化关键内容。部分贡献给OpenTelemetryGenAI工作组。 Metrics:LLM应用可观测需要关注哪些指标？基于Prometheus + Grafana实现AI全栈指标统一存储与可视化，构建LLM领域监控大盘，如模型性能分析、Token成本分析等。 Metrics:模型推理关键指标推理性能目标是：最快的首个token响应时间、最高的吞吐量和最快的每个输出token时间基于OpenTelemetry的高质量数据采集以OpenTelemetryPython Agent为底座，增强大模型领域语义规范与数据采集，提供多种性能诊断数据，全方位自监控保障稳定高可用。 Python探针无侵入埋点的实现原理 Python语言提供一种装饰器模式，底层采用了一种monkey patch的机制，允许程序在运行时改变一个模块或者类的属性和方法，实现无侵入的可观测代码插桩逻辑。阿里云Python探针与开源探针对比分析面向流式场景的LLMSpan分段采集与合并随着SSE协议在大模型推理场景的广泛应用，针对流式数据采用客户端分段采集+服务端合并还原，以平衡客户端侧性能与数据分析易用性。 1拆分长文本长耗时LLM Span每个分片作为一个Event单独上报 2模型调用结束，上报主Span记录分片数量、TTFT、Token等信息 3合并Events还原上下文当次调用的Events合并为单行数据 4模型调用内容二次评估分析下游评估任务/分析模块进行查询 Dify生产级部署最佳实践 1.Nginx调大NGINX_CLIENT_MAX_BODY_SIZE2.PGSQL数据库连接池大小：建议增加到300或以上3.Redis使用哨兵模式提升高可用性4.使用消息队列替换Redis5.使用第三方向量数据库6.使用外置可观测组件7.存储配置建议使用云存储（如OSS） Dify可观测最佳实践 vLLM/SGLang推理性能可观测实战 vLLM是一个高效的推理引擎，通过动态批处理、内存分块管理、KV缓存复用等方式大幅度提升了推理效率。问题现象某业务通过AI网关调用自建DeepSeek模型服务发现请求耗时很高排查思路 1.通过RequestId查询到关联的TraceId，再通过端到端调用链分析发现模型推理阶段耗时非常高。2.通过调用链和指标关联，排查同一时刻相关指标是否异常1.首先观察TTFT指标，确认正常，排除prefill阶段问题2.检查TPOT指标，确认正常，排除decode阶段问题3.检查推理引擎中正在执行的请求和排队的请求数量，发现正在执行的请求数量激增，同时出现较多的排队请求4.最终确认是请求数量过多，超过当前处理能力后导致排队建议增大推理引擎中请求队列的大小配置基于LLM实现模型生成结果自动化评估系统评估（内置10+模板）降低门槛、自定义评估深度提升生成效果。一站式Embedding/向量索引、向量和关键字混合检索简化开发流程。模型生成结果评估评估，为了更好的生成自动化评估（定量/定性）为了更好的提升大模型生成效果，可以通过新的模型对原有模型Prompt/Response进行二次评估（质量、安全等）。基于Trace或模型日志中记录的上下文内容，可以实现自动化定量/定性评估，比如合规性检查、用户意图提取等。 MCP为大模型生态带来了哪些变化和挑战？模型&MCP多轮交互导致“熵增”形成token黑洞LLM模型、宿主环境和各种MCP服务器之间的相互连接，会通用连接器解决“N×M”集成问题 MCP（ModelContextProtocol）为人工智能模型和开发环境之间建立统一的上下文交互提供了标准化方法。导致链路复杂性提升、性能瓶颈诊断困难、SLA难以保障以及安全等问题，可观测是降低“熵增”最有效的办法。 Demo Serverless+AI让应用开发更简单 CONTENT目录 Serverless+AI的无限可能01 Serverless+AI全新云应用开发平台02 Serverless+AI让应用开发更简单03 Serverless在解决什么问题？目标和策略成本目标 •简单，易用，减少发布/扩容时间，提升发布/扩容的效率 •按需付费，降低用户成本，提供产品竞争力 •通过不断的优化资源供给能力：降低用户保有资源的成本，提高资源利用率，降低资源使用成本； •通过不断的加强和云产品及周边生态的集成，降低用户业务构建的门槛，减少业务发布和扩容运维时间，提升业务效率； •平台及体验能力升级：云服务集成，事件驱动，函数编排，应用模版，计费优化，观测能力集成客户构建AI应用的“绊脚石” Serverless+AI全新云应用开发平台 Serverless + AI让应用开发更简单 FunctionAI平台重磅发布 FunctionAI架构 FunctionAI开发范式 Serverless+AI让应用开发更简单高质量AI应用模版：加速AI应用落地 Serverless应用开发平台，提供丰富的AI应用模版，提供AI应用落地案例参考，支持一键快速拉起，解决AI应用开发者无从下手的困境 Serverless运行时：让业务成本更低，开发效率更高 •极致弹性：根据实际流量需要，自动弹出新的实例承载请求•按量付费：实际使用了多少计算资源，就付费多少（毫秒粒度）•镜像加速：层按需加载、多层缓存，GB级别镜像秒级启动请求计费：0.009元/万次（阶梯计费）资源计费：•CPU计费：0.00009元/vCPU*秒（阶梯计费）•内存计费：0.000009元/GB*秒•显卡计费：0.00011元/GB*秒（阶梯计费）存储计费：0.0000009元/GB*秒（512MB以下免费）多种策略保证平稳运行预留实例/闲置预留按量弹性以默认8C、32GB内存、24GB显存A10卡的应用为例，每秒钟收费约0.003648元（以512像素的Stable Diffusion出图为例，约1.5分钱一张图）流程服务：让业务流程管理更简单，可控 Serverless应用开发平台，提供易用的流程式开发工具，用户自定义服务能够自动注册成为可编排制品，帮助云和AI用户快速构建业务流程。函数服务：让业务代码开发，运维更简单开发更简单 •100+云产品事件集成，降低用云复杂度•全托管计算服务，内置日志采集监控告警•应用中心50+热门应用模板，开箱即用运维更高效 •开发、调试、部署、运维全生命周期管理•计算资源CPU/GPU/内存/磁盘/网络按需组合•百毫秒冷启动，单客弹性效率可达2000实例/秒架构更先进 •业务拆分到函数粒度，资源利用率可达100%•无需容量管理，研发提效10倍，运维0负担•2倍资源溢价，3倍利用率提升，技术降本30+% 模型服务：Serverless GPU让模型服务更普惠模型托管服务提供GPU资源的按需和极速模式，在保留用户原有长持预留GPU的使用形态下，通过区分GPU实例的忙闲时刻，闲时定价大幅低于忙时定价，帮助客户大幅降低AI落地成本，同时保证模型冷启动推理耗时。产品价值模型来源新兴的大模型推理场景传统的在线推理场景应用场景 AIGC浪潮下的新兴推理应用，LLM文生文、Stable Diffusion文生图、FunASR文生音频等延时高度变化，负载高度不确定，偏C端的应用形态，日均资源利用率普遍较低；例如：传统的CV类模型（OCR）、NLP模型（机器翻译） FunctionAI客户故事大型企业灵活可定制，加速业务AI创新初创公司自媒体浪潮中的潮流引领客户原声客户原声客户原声客户原声 CAP +任务调度 CAP+Web全栈 CAP + Stable Diffusion +定制化 CAP+ComfyUI 谢谢Thank You 十几行代码实现OpenManus，SpringAI Alibaba Graph工作原理与使用示例刘军 Spring AI Alibaba开源项目负责人2025/04/24 CONTENT目录 Spring AI Alibaba Graph深入介绍01 Spring AI Alibaba Graph示例演示02 Spring AI Alibaba Graph总结规划03 一个完整的Spring AI Alibaba示例 4 .声明C h a t C l i e n t为标准S p r i n g B e a n 1 .添加依赖 2 .a p p l i c a t i o n . p r o p e r t i e s指定A P I-K E Y 3 .应用入口 Spring AI提供基础AI抽象与能力 •文本、语音、图片等模型、多模态均可支持•支持任意模型适配，按需切换OpenAI、Qwen、Deepseek•聊天记忆（多轮对话）•Prompt声明•Tool工具•格式化数据输出•RAG•模块化RAG检索•私域数据Embedding向量化与VectorStore存储•Tracing链路可观测基于ChatClient的Single Agent架构 Single Agent架构的局限 1.如果一个agent包含有太多的可用tools，模型会在决策工具选择时无所适从，效果变差2.多轮执行下来，消息上下文会变得很大。消耗大量的token且影响模型当前专注度3.对于很多复杂的任务，不止需要很多个步骤，通常在某些环节还需要专业领域技能支持，比如科学计算、深入研究、写代码、绘画、任务规划等。4.单Agent在复杂任务场景下的可维护性会变差面向复杂AI业务场景的解决方案典型的workflow模式-Chain 典型的workflow模式-Routing 使用Spring AIChatClient开发workflow？更复杂workflow–低代码应用开发平台典型的multi-agent模式 SpringAIAlibabaGraph示例示例一：基于w

点击免费查看完整报告