AI智能总结
陈真蚂蚁集团智能可观测负责人 个人介绍 陈真 蚂蚁集团智能可观测负责人 长达10年从事可观测领域技术架构设计及产品研发工作,蚂蚁集团可观测产品支撑起了内部百万机器集群及分钟几十TB级别数据处理业务规模。 •2013~2016年,IBM企业级监控产品•2016~2019年,蚂蚁集团可观测科技产品商业化•2019~至今,蚂蚁集团内部可观测平台Antmonitor及开源可观测平台HoloInsight 智能涌现 1 目录 大模型工程可观测体系 2 CONTENTS 蚂 蚁A I-I n f r a可 观 测 实 践 分 享 3 技术开源 4 01智能涌现 全球大模型技术蓬勃发展-百模大战 相关报告显示,截止至今年7月,国内大模型数量已达130个,高于美国的114个。 蚂蚁金融大模型快速演进 02大模型可观测体系 大模型工程简述 训练 推理 应用 •Langchain大语言模型(LLMs)应用的框架•Prompt工程及Agent开发•向量数据库及其它组件 •数据加工•模型训练•模型评价 •基础大模型部署•LoRA模型热部•部署调度及在线服务 大模型训练领域的基础设施痛点 大模型训练因参数量规模不同通常需要几百甚至上千小时的训练才能输出最终的可用模型。 NVIDIA在2021年4月发表的《Efficient Large Scale Language Model Training on GPU Clusters》文章中提到:使用1024张80G显存的A100卡训练1750亿参数的GPT-3模型,需要训练34天。 03蚂蚁AI-Infra可观测技术分享 蚂蚁可观测性产品Antmonitor Antmonitor是蚂蚁集团自研的可观测监控产品,有十年的发展历程,主要解决海量用户高频交易及双11等全民级大促可观测场景诉求,支撑起内部百万级容器及分钟几十TB的日常数据处理。 大模型可观测能力(LLMOps)23年初开始建设,覆盖训练、推理、应用各个阶段。 AI-Infra可观测技术架构 AI-Infra可观测多维时序模型 案例一:资源数据多维分析 应用、用户、基础资源数据关联监控分析 案例二:内置Tensorboard查看训练指标 用户可以通过tensorboard观察到核心模型训练指标,如loss不收敛或收敛太慢的case,及时作出调整,终止无效的训练。 案例三:指标监控告警 可以针对训练指标、异常事件(如Loss收敛及发散)等配置告警,减少训练异常中断带来的影响。 案例四:推理服务监控 推理服务关注请求耗时、成功率、流量等,可以从多个维度(如集群、服务、机房)进行下钻分析 04技术开源 蚂蚁可观测开源产品HoloInsight HoloInsight是蚂蚁监控团队基于多年可观测领域经验沉淀,打造的一款面向云原生时代的轻量化、全功能、智能化可观测性产品,集数据采集、洞察分析、智能运维于一体,目前服务于蚂蚁生态用户及蚂蚁出海业务,核心代码已开源。 LLMOpsPlugins已部分开源(GPU,OpenAIMonitor,LangChainMonitor) Langchain&OpenAI可观测案例 LangChain&OpenAIMonitor插件集成了一个即插即用的仪表板,能够基于token消耗来跟踪和管理模型的使用情况,包括用于构成prompts(OpenAI模型的文本输入)和completions(相应的输出)以及令牌总数的消耗情况。可以监控接口调用的性能,包括接口的调用个数、错误率、耗时及耗时百分位数。(基于Datadog的开源工具dd-trace-py) G O P S全 球 运 维 大 会2 0 2 3 ·上 海 站 开放运维联盟高效运维社区DevOps时代 荣誉出品