AI智能总结
本白皮书旨在深入探讨网络运维大模型领域的最新技术趋势,为网络运维专业人士和行业专家提供信息和见解。 现状,背景 网络运维发展现状 产业共识:从2019年由TM Forum联合产业伙伴共同提出自智网络,旨在引领网络基础设施和运营体系的自动化,形成体系化的理念。 现状水平:覆盖预测智能、控制智能、感知智能和诊断智能,主要以小模型研发范式开展,特征是基于特定数据集,针对具象化任务目标开发形成专用能力,多种AI能力串联入生产运维流程。 网络运维演进面临的挑战和机遇 1,当前以小模型为主的网络运维,由于小模型参数规模小,场景数据依赖性强,导致其在不同场景下的泛化适应能力弱,无法快速推广复用和处理未知场景任务,应用规模容易受限。 2,网络运维多模态数据、实时数据、数据关系复杂、强领域知识、多样化的场景。错误容忍度低。如果直接利用大语言模型,虽潜力巨大,幻觉问题 概念,相关要求 1,面向网络运维场景,利用人工智能大模型作为基座底座,通过flash-attention、ZeRO、混合精度等技术实现高效训练网络知识,叠加多模态的运维知识图谱和混合专家模型,构建运维通用的大模型 运维大模型是面向运维场景应用的融合模型:数据,知识要求:运维,数据知识的通用和垂直可以是分开。因为垂直域数据相对不公开,算力和语料有一定限制,因此可以集中力量做好通用域基础上,再叠加垂直域方面做一些增强化的工作。 模型要求:除自然语言之外,网络运维中的各种监控数据是多模态的,涉及到典型的、多模态的数据源,需要多模态运维数据的基础模型群。 接口要求:运维大模型中还包含已有的自动化的运维工具,接口尽量标准化,能够清楚地描述出API,如用自然语言描述出来的需求能够直接转换成对接口的调用,变成SQL,配置命令,API的调用,通过基础模型的编程框架(LangChain,ApiChain等)编排在一起。 需求,场景,价值 1愿景,需求 运维大模型是面向运维场景应用的融合模型:大模型技术不仅在自然语言处理、计算机视觉以及多模态领域有广泛的应用前景,通信网络中大模型技术能力和潜力,促进通信网络自智能力持续提升。 基于大模型技术有望实现网络运维领域的通用智能,面向客户、运维人员、网络设备等全要素、全场景,提供全新的用户交互、信息组织和系统集成模式,促使运维模式从“网络+AI”向“AI+网络”转变。 2场景 网管:系统容量、覆盖、故障率、负载均衡、异常检测等多方面优化核心网:智能业务质量定义与分配、切片状态分析、用户体验分析接入网:智能无线资源管理、接入控制、调度 3价值 降低数据标注要求 通用性,跨场景能力 逻辑,理解能力 发展与实践:大模型时代的网络运维 1,网络运维大模型特点,分类 意图驱动的对话式交互:基于全网全量知识、数据、事件的分析和决策:自适应的全量设备对接操作:极简运维现场作业: 发展与实践:大模型时代的网络运维 运维大模型典型解决方案 1,大模型+运维应用知识 由于涉及到“规、建、维、优、营”各个方面,很难训练一个对所有任务都万能的统一大模型,因此一个相对通用的大模型,然后通过外挂知识库的方式,可能是一个经济有效的落地应用解决方案。 2,基于Agent 以LLM为能力底座的AI Agent架构,以网络运维大模型为基础,结合AI-Agent的概念,给出承载网络运维大模型的应用架构,通过对多场景运维大模型的协同使用,实现网络智能化运维 发展与实践:网络运维大模型评测,评估 网络领域对确定性,可靠性,正确性高度要求,通过对性能的评测,进化和改进提供依据,提高其应用效果和商业价值。还可以作为基准,了解不同厂商提供的的性能和适用性,促进不同领域研究者的技术交流和合作,共同推动网络人工智能技术的发展。 1,评测 网络运维大模型关注网络运维领域的服务能力,需要建立网络领域大模型能力评测数据集、评测任务场景、评测效果指标、评测方法,整体评估大模型在网络运维领域的各项服务能力。 2,分阶段评估 运维大模型应用在网络中,缺乏有效的评估可能导致模型在实际应用中出现问题,增加应用的风险。从试点应用到扩大应用,最后全面应用阶段,可能给网络系统带来风险递增,需要在三阶段建立相应递增的严格的评估机制,保证准确性、计算效率、安全性等。 相关的关键技术,难题 1数据治理:高质量语料是训练大模型的数据基础。在预训练阶段,针对多样性网络数据清洗,加工。在微调阶段,需要构建指令微调数据集,对于复杂场景,还需要构建思维链数据集等。在运行态过程中构建数据飞轮机制,问题自动回收,筛选和识别,根据模问题,针对性地补充数据集。23基于人类反馈的强化学习RLHF:大模型交互比较复杂或倾向于主观评价,很难显示定义一个损失函数或优化目标,可以从人类反馈中进行强化学习,通过人类反馈来指导系统生成符合人类意图的结果。45思维链Chain of Thought:网络运维中的不少任务都需要模型具备逻辑推理的多步思考能力(比如告警处置、故障诊断),思维链技术的提出则是为了提升大模型的逻辑推理能力,使得结果更加准确、可信。外挂知识库:为解决知识更新快,模型增量训练成本高,以及隐私知识等问题,可以通过外挂知识库如常用的向量数据库,借助文本向量化技术(如sentence-BERT)提升知识问答准确性,并实现隐私保护。6推理加速:巨大的参数量才能做到强大的理解和泛化能力,在每次务应用中往往不会用到全部知识容量。可以引入模型蒸馏技术,大幅下降参数量以及推理耗时,用更小的模型达到几乎不变的效果,目标是让小模型(Student)尽可能去学习大模型的(Teacher)结果。多模态融合:对于非语言类的大模型,如仿真、优化和故障大模型,通常需要融合多种监控数据分析,无线仿真大模型需要融合性能指标、MR与工参等。7增量预训练与微调:基座对电信领域的知识理解有限,更好地理解和处理电信领域的术语和知识进行增量预训练。在预训练结束后,引入指令数据集微调,提升特定任务表现。 相关应用探索 无线闭环优化 网络故障识别与预测 基于网络语言大模型和网络结构化数据大模型,完成无线性能优化的端到端闭环处理,涵盖无线性能劣化发现、分析、定位和处理,服务网络自配置、自修复和自优化 基于运维大模型对大量历史数据的学习来预测未来趋势,为主动性预测运维提供支撑。 大模型赋能意图驱动运维 基站站址规划 大模型在意图理解、推理和判断决策等方面具备明显的优势,将大模型与意图驱动网络相结合,能够有效提升意图转译准确度,简化意图管理与网络运维流程。 大模型在意图理解、推理和判断决策等方面具备明显的优势,将大模型与意图驱动网络相结合,能够有效提升意图转译准确度,简化意图管理与网络运维流程。 告警检测与根因诊断 运维专家知识的问答 大模型学习历史工单信息给出故障定位、故障止损建议和相似故障提示,提供与历史故障的相似性比较以及当时的止损方法 大模型提高知识利用效率,知识运用贴近场景化,知识更新反馈流程化。 经验启示 ü高质量数据集以及数据规模是基础。堆砌大量的数据进行训练,找出其中的共性。模型的参数量太小会制约性能,并不是越大越好,增加数据量并保持一个平衡效果和使用成本的。 ü微调数据多样性可防止模型学偏。 ü通过知识检索增强可一定程度避免幻觉。训练数据有偏见或训练数据不足、训练数据过度拟合、上下文理解有限、领域知识缺乏、对抗攻击和模型架构等都会幻觉可以用KG增强大模型,增加可靠性。用Retrieval-AugmentedGeneratio:引经据典,增强可解释性,生成的内容打上reference,展示出来源,白盒的生成模型。 2023.122024.1~22024.3 •启动•发布•讨论,迭代 总结并呼吁开展更有实质性的工作,包括 1,可以把共性,通用的东西集中力量做好。 2,网络运维大模型关注网络运维领域的服务能力,需要建立网络领域大模型能力评测数据集、评测任务场景、评测效果指标、评测方法,整体评估大模型在网络运维领域的各项服务能力。 3,针对运维,网络垂直领域统一标准,降低数据质量依赖性高、标准化程度低、数量参差不齐会导致的质量性能问题。