您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:张世磊:体系化人工智能技术(Holistic AI)技术探索 - 发现报告

张世磊:体系化人工智能技术(Holistic AI)技术探索

张世磊:体系化人工智能技术(Holistic AI)技术探索

中国移动研究院张世磊2023.11.24 日趋泛在的智能化需求和智能化技术赋能成本高之间的矛盾 智能化技术赋能成本高 日趋泛在的智能化需求 支撑环境适宜: 共性能力: 合理评估AI能力的可达性,构建可达的共性AI能力 平台化: 实用便捷的工具,运营运维 客户规模,经济规模 业务本身是规模化的: 规 模 化 应 用个 CHBN赋能价值 10086智能客服 -服务16万党员-构建超5万条知识点数据库-知识检索效率提升90% -服务家庭7600+万户-观看率提升42%-单省收入赋能7000+万 核 心 能 力个 通 用 能 力 网 络 智 能 化 能 力 簇 智能语音机器视觉自然语言理解智能推荐智能数据分析 感知智能预测智能决策智能诊断智能控制智能 基础大模型:加快构建适用于泛场景的自主可控通用基础大模型,打造通用智能底座行业大模型:聚焦供给侧,加快构建行业大模型,加速国民经济主体行业的智能化转型升级,促进我国整体生产力跃升 以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享九天·众擎基座大模型 通常需要在满足计算、传输、安全、可控性等多项约束前提下,组合使用多个模型或能力,包括基础模型、行业模型或面向特定任务的小模型,并能够端到端优化服务于业务目标 体系化人工智能(Holistic AI,HAI)是中国移动研究院九天团队原创技术的攻关方向,依托泛在的网络和AI算力,在开放环境中实现对AI能力进行灵活且高效的配置、调度、训练和部署,以满足日益丰富的数智化业务需求,同时确保AI业务可信可控安全,其主要特征为AI服务大闭环、AI能力原子化重构、网络原生AI及安全可信AI。 根据智能化业务需求,按需对AI能力进行调度、配置和运行监控,使其能在最合理的算网资源上运行和服务 1、“大闭环”(Big Loop AI) “大闭环”AI以业务端到端的大闭环优化为目标,重点攻关多能力级联与并联优化、开放动态环境中AI能力优化的基础理论和技术,从而达到AI产业闭环。 2、AI技术原子化重构(Atomized AI) AI能力依据高复用、易调度、自闭环、易适配等原则进行原子化拆解和重构。一个典型的原子化AI能力包含通用智能层、适配层、接口层,通用智能层可多个能力共享。AI原子化重构是体系化人工智能得以实现的基础。 3、网络原生(Network Native AI) 网络原生AI将AI能力与算力通过标准化的方式接入网络、按需调度,重点攻关AI模型自动伸缩的理论和机制,制定AI计算资源、数据、模型、能力、服务的功能、流程、接口和计量的标准,实现AI能力在网云边端弹性部署、计算和迭代。 4、安全可信(Trusted AI) AI数据、模型、能力、业务的安全可信是体系化人工智能服务的重要基础,重点攻关AI服务可追溯、可互信、可审计、抗攻击的基础理论与方法。 其中: 𝐀是一个复杂的函数,表示体系化人工智能的内部逻辑和流程。 数据集D={d1,d2,…,𝐀𝐀},每个数据d𝐀都有一个类型𝐀𝐀∈{0,1,2, …,𝐀},表示文本、图像和语音等异构数据类型。模型集M={𝐀1,𝐀2,…,𝐀𝐀},每个模型𝐀𝐀都有一个类型𝐀𝐀∈{0,1,2, …,𝐀},表示分类模型、预测模型和生成模型等不同模型。原子能力集𝐀={𝐀1,𝐀2, …,𝐀𝐀},𝐀𝐀是第𝐀个能力,表示语音识别,语音增强,图像分割,机器翻译等不同的能力。真实环境数据分布集P={𝐀1,𝐀2,…,𝐀𝐀},每个分布𝐀𝐀都有一个类型𝐀𝐀∈{0,1,2, …,𝐀},表示高斯分布、均匀分布和其他复杂分布。原子化评估集E={𝐀1,𝐀2,…,𝐀𝐀},每个评估𝐀𝐀都有一个指标𝐀𝐀∈{0,1,2, …,𝐀},表示不同的评估指标。标准规范入库集S={s1,𝐀2,…,𝐀𝐀},每个入库𝐀𝐀都有一个条件𝐀𝐀∈{0,1,2, …,𝐀},表示入库准则。真实场景数据漂移集F={𝐀1,𝐀2,…,𝐀𝐀},每个漂移𝐀𝐀都有一个类型𝐀𝐀∈{0,1,2, …,𝐀},表示协变量漂移、先验漂移和概念漂移等。数据传输的演化更新集U={𝐀1,𝐀2,…,𝐀𝐀},每个更新𝐀𝐀都有一个方法𝐀𝐀∈{0,1,2, …,𝐀},表示校准模型、和主动学习或迁移学习等方式。用户需求服务集𝐀={𝐀1,𝐀2, …,𝐀𝐀},表示用户提出动态的需求和任务;是一个动态的集合。𝐀为算力存储资源、网络资源,以及数据隐私等各种资源约束阈值;𝐀表示每个流程中对应消耗和占据的资源函数。 考虑体系化人工智能的内部流程和逻辑,进一步可以将𝐀分解为以下几个子函数: max𝐀(𝐀,ℎ,𝐀,𝐀,𝐀, ℓ,𝐀)𝐀.𝐀.𝐀(𝐀,ℎ,𝐀,𝐀,𝐀, ℓ,𝐀)≤𝐀 其中: 端到端跨模态异构数据建模:𝐀(D,M); 模型学习机理的优化建模:ℎ(𝐀,𝐀,𝐀,𝐀); 模型的原子化表征和建模:𝐀(M,E); 模型的标准规范入库:𝐀(M,S); 数据漂移的优化建模:𝐀(D,𝐀,F); 模型数据传输的演化更新:ℓ(M,F,U); 运行架构优化建模:𝐀(𝐀,𝐀,𝐀),如何在资源约束和安全可信的前提下的完成整体业务流程。 n原子化 n基于大模型的调度体系 Fig1.体系化原子模型示意图(HAI Atomic Model,HAI-AM)其中绿色部分为其中一条可能的路径 原则 (1)重用度高(2)输入输出清晰,功能清晰(3)不过于细小导致模型协同成本高于计算成本(4)适合于独立攻关(5)和基础模型能力互补 üAutomatic Mask Pruning (AMP):automaticallyidentify task-specific filters/nodesfor different tasks inthe pre-trained model.üapply theLog Expected Empirical Prediction (LEEP) which is used to evaluate the transferability ofrepresentations learned by thesource task to thetarget task. üScalable Mask Selection Pruning (SMSP):fast-adapt the pre-trained modelto downstream tasks. One-Shot Pruning for Fast-adapting Pre-trained Models on Devices, Haiyan Zhao and Guodong Long,arXiv:2307.04365v1 “Factorizing Knowledge in Neural Networks”,Xingyi Yang, Jingwen Ye, Xinchao Wang, ECCV2022. Decouple one Model into Atomized networks •每个因子网络包含两部分:通用知识网络(CKN)和特定任务网络(TSN)•一种新的信息衡量指标-InfoMax Bottleneck (IMB),使输入和通用特征间互信息最大(最大限度保留大模型的通用知识),使不同特定任务特征间互信息最小(使特定任务网络之间尽可能解耦)。 "Generic-to-Specific Distillation of Masked Autoencoders". WeiHuang,ZhiliangPeng,LiDong,FuruWei,&JianbinJiao, QixiangYe. (2023). 15996-16005. 10.1109/CVPR52729.2023.01535 基础模型的功能蒸馏 : Distilling Pre-trained Language Models based on Generative Models,Y.Gao, Shilei Zhang,ZihaoCui, Chao Deng, Junlan Feng*.Archive-2023 基础模型的功能蒸馏 Two-dimensional Attention Mechanism: T is the frame numbers related with the utterance length,B refers to the batch size,D denotes the featuredimension,H refers the numbers of hidden layers to bepredicted plus the original feature.[H×T, B, D] Distillation Loss n原子化 n基于大模型的调度体系 搜索空间巨大:层级搜索、免训练(training free) 端到端闭环数据稀疏:无监督 参数量和内存消耗大:适配器、蒸馏、剪枝 接口复杂:维度一致、梯度连续 "Meta Auxiliary Learning for Low-resource Spoken Language Understanding",Yingying Gao,Junlan Feng*,ChaoDeng,Shilei Zhang.Interspeech2022 "Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search",Yingying Gao, Shilei Zhang,Zihao Cui,Chao Deng, Junlan Feng*.Interspeech2023 Fuse Multiple Models into one target model •多个神经元网络层形成一个功能块•功能相似网络:输入相似时,输出相似•将一个网络分成多个功能块,相似的功能块形成一个集合,这个集合称为:等同网络块集合 "Deep Model Reassembly", Xingyi Yang , etc. NeurIPS 2022 Stitch Multiple Big Models into one target model “Stichable Neural Networks”,Zizheng Pan JianfeiCai Bohan Zhuang, Archive-2023 Fuse Multiple Models into one target model "Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search",Y.Gao, ShileiZhang,Zihao Cui, Chao Deng, Junlan Feng*.Interspeech2023 Cancade three models - speech enhancement , ASR,NLU - with Bottleneck Adapter "Cascaded Multi-task Adaptive Learning Based on NeuralArchitecture Search",Y.Gao, Shilei Zhang,Zihao Cui, Chao Deng,Junlan Feng*.Interspeech2023 n端到端优化 可靠可信安全可控 体系化人工智能:将人工智能技术从单点应用向系统集成转变,形成具有自主学习、自主决策、自主协同等特征的人工智能系统。 通信网络安全 体系化人工智能服务的重要基础:AI数据、模型、能力、业务的安全可信