AI智能总结
演讲人:徐可甲 目 录 01 02 智算服务可观测需求与挑战 云原生智算服务关键技术 03 下一代可观测Pipeline 04智算服务可观测Pipeline技术实践 05 未来展望 云原生智算服务关键技术 深度学习的特点•端到端流水线–Raw data in, executable model out •AI在计算机视觉、语音、NLP等领域取得突破,已深入影响各行各业,并催生出了自动驾驶等领域。•AI服务上云形成趋势,深度学习/AIGC应用广泛采用容器等云原生技术。 •持续迭代优化–梯度下降,超参数调优,Prompt工程•任务长时运行–小时/天/周/月•消耗海量数据和大量算力 大模型对基础设施服务能力的挑战是阶跃式的。对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。 异构硬件 设备插件灵活扩展支持各种设备插件,允许轻松将不同类型的硬件资源集成到集群中。 AI工程通常需要多样化的硬件支持。 动态分布式计算AI工程中的计算需求常常具有高度的动态性,如模型训练和推理负载会 资源调度与弹性伸缩K8s强大的调度能力,根据实际负载自动调整Pod数量,实现计算资源的 随数据量和算法复杂度变化。 动态分配与回收。 资源隔离性AI工程通常涉及多个团队,不同任务需要独立的资源隔离,避免资源竞 命名空间与资源配额通过命名空间和资源配额确保不同任务的资源独立性。 争导致性能下降。 容器化应用管理通过容器化技术,确保在不同环境中运行的AI应用具有一致的运行环境, 环境一致性AI工程需要在不同环境(如开发、测试和生产环境)中保持一致性。 避免因环境差异引发的问题。 持续集成与持续部署(CI/CD) 与CI/CD工具的集成,支持自动化构建、测试和部署流程。 AI模型和算法需要频繁更新和快速迭代。 云原生架构的容器服务支撑AI智算基础底座 AI工程向云原生架构演进 在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源,以容器化方式开发、运行AI、大数据任务,部署AI推理服务。 传统架构 到2025年,接近50%的企业内部的数据密集型或性能密集型计算工作负载都将迁移到云原生架构上。 云原生AI 利用云计算的弹性资源、异构算力以及容器、自动化、微服务等云原生技术,提升AI/ML的工程效率,降低整体成本,提高可扩展性,并实现端到端的解决方案。 统一资源管理持续优化利用率 统一任务调度保障规模与性能 GPU共享单卡共享:模型推理场景多卡共享:分布式模型训练 将任务打包到尽可能少的节点上,提高资源的使用效率。 解决多租集群固定资源分配下,不同用户使用周期不同导致资源浪费问题。 All-or-Nothing任务任务组(Gang)内的所有任务必须同时调度和执行 智算服务可观测需求与挑战 ••• • • •• 下一代开源可观测Pipeline 下一代可观测Pipeline 定位 LoongCollector是一款集卓越性能、超强稳定性和灵活可编程性于一身的数据采集器,专为构建下一代可观测性数据传输Pipeline设计。 1、可观测性统一Agent(Unified Observability Agent)2、端到端可观测Pipeline(End-to-End Observability Pipeline) 设计注重性能与可靠性 一个轻量、高效、稳定、可靠的架构,能够实现高吞吐量,同时保持较低的CPU和内存开销。 通用反馈队列机制-高低水位反压控制-At-Least-Once语义保证 Pipeline多租隔离-数据流隔离-优先级保证 iLogtail在采集速率上优势明显。——《性能与可靠的超强碰撞!第三方测评开源日志采集器》 可持久化缓冲-容忍短时环境异常数据不丢 开放的管控协议 为不同来源与架构的Agent提供一个标准化、可互操作的框架,促进配置管理的自动化建设。 谁可以管控LoongCollector? 商业版管控(百万级机器管控,企业级稳定性)开源版管控服务(完全开源,可自由扩展)托管版管控服务(免运维,敬请期待)任何遵守开源管控协议v2的自有实现管控 行业对比 智算服务可观测Pipeline技术实践 智算服务可观测方案 DaemonSet模式:K8s每个Node部署一个日志Agent。负责采集当前Node所有容器标准输出、文件日志或宿主机文件。 Sidecar模式:一个POD中运行一个Sidecar日志Agent容器。仅采集该POD内业务容器产生的文件日志。 Logging-Audit 自动补充分布式训练容器上下文 分布式训练多行日志高性能切分 日志上下文顺序查看 通过字节流解析应用层协议,屏蔽了编程语言和编程框架的影响,大幅减少开发的复杂度。 •极简模式440M/s•多行切分模式400M/s•正则/JSON75M/s •增加资源•并行处理•并行发送 •保证带宽•VIP、SLB•减小链路长度 Pipeline •LoongCollector整体状态•LoongCollector异常监控•LoongCollectorPipeline监控:Pipeline耗时、数据量、插件级统计 未来展望 THANKS 大模型正在重新定义软件Large Language Model Is RedefiningThe Software