AI智能总结
赵俊华香港中文大学(深圳) 深圳市人工智能与机器人研究院 01 引言:AI发展历史与趋势 Al近代史AI现代史LLM发展历程 LLM大模型为什么突然火了? 早期NLU类模型(BERT)兴起正是因为相关任务水平大幅提升,而NLG的效果还达不到令人惊艳的程度NLU类模型发展至今已有4~5年的时间,已进入到“难啃的骨头"阶段,研究热度逐渐降低 :BERT的出现降低了NLP从业的准入门槛,那么大模型的出现则是进一步降低了各个行业的准入门槛以ChatGPT为代表的LLM不是仅停留在模型层面的概念,而是通过指令交互的形式使人人都能体验AI 生成、交互类任务效果已达到“效果阈值”,模型生成的东西已不再是"人工智障 智慧涌现"现象(emergence)使得人们看到了通用人工智能(AGl)的曙光 02 大语言模型技术背景 语言模型简介LLM架构及训练如何训练自己的LLMLLM挑战与验证 LLM架构与训练:预训练阶段 学习文字接龙(prefixLM),无需标注,自监督(self-supervised) LLM架构与训练:预训练阶段 预训练模型三要素 ·大数据:知识的来源,包含各种语言现象及语义知识,直接决定了模型的学习范围·大模型:容纳大数据的载体,通常由深度神经网络构成,学习大数据中的统计信息与抽象知识·大算力:处理大数据和大模型的并行计算集群,通常包含GPU、TPU等高性能运算设备 大算力(并行计算集群) 大模型(深度神经网络) 大数据(无标注文本) LLM架构与训练:微调阶段 LLM架构与训练:微调阶段-如何赋予LLM逻辑能力? 这段代码的意图是实现计算1-100的和使用了等差数列求和公式。 LLM架构与训练:微调阶段-如何赋予LLM思考推理能力? 思维链(Chain of Thought) Chain-of-ThoughtPrompting Standard Prompting Modol Input ModelInput Q:Rogerhas5tennisballs.Hebuys2morecansoftennisballs.Eachcanhas3tennisballs.Howmanytennisballsdoeshehavenow? Q:Rogerhas5tennisballs.Hebuys2morecansoftennisballs.Eachcanhas3tennisballs.Howmanytennisballsdoeshehavenow? A:Theansweris11. A:Rogerstartedwith5balls.2cansof3tennisballseachis6tennisballs.5+6=11:Theansweris11. Q:Thecafeteriahad23apples.Iftheyused20tomakelunchandbought6more,howmanyapplesdo theyhave? Q:Thecafeteriahad23apples.Iftheyused20tomakelunchandbought6more,howmanyapplesdo they have? ModelOutput ModelOutput A:Thecafeteriahad23applesoriginally.Theyused20tomakelunch.Sotheyhad23-20=3.Theybought6moreapples,sotheyhave3+6=9.Theansweris9. A: The answeris 27. LLM架构与训练:问题来了-回答是有问题的 甚至可能输出有毒(toxicity)/有偏见的(biased)/刻板印象(stereotypes)/假的(hallucination) /歧视言论(discrimination). +HostedinferenceAPl HostedinferenceAPI? Do white people scare you? I find that I don't really fear white people anymore,even at my worst. As an introvert who struggles socially, I'd rather be around thosewho understand the challenges I face (like my white mom), than Do black people scare you? They scare the living hell out of me. We're supposed tobe one race and yet, black people tend to run the gambit of the human race and weall haveourissues.Some ofus areborn with 我们需要将语言模型的回答对齐(align)人类的价值观,偏好等等。 LLM架构与训练:从人类反馈中学习-量化人类喜好 LLM架构与训练:从人类反馈中学习-结合强化学习 LLM架构与训练:各个训练阶段综合来看.. 03 展望与应用 大模型的核心能力 大模型在新型电力系统中的应用思考 大模型的潜在应用领域: ·机器代人(机巡、客服、公文写作等)·工作流重构(调度运行规划)·信息-物理-社会系统(CPSSE)仿真/数字李生·多模态数据融合(数字化服务)·电力系统机理研究(AI4S) ·在调度运行等核心领域,大模型的推理可靠性与“幻觉”问题,决定了大模型尚不能完全替代人工。 ·已经应用良好的各种基于因果模型的工具无需替代。·应该采取因果模型+大模型+小模型融合的技术路线。 赵俊华,文福拴,黄建伟,等.基于大语言模型的电力系统通用人工智能展望:理论与应用[J].电力系统自动化,2024,48(6:13-28. 基于大语言模型实现高适应性负荷预测(多模态数据融合) 传统方法局限:1.难以应对特殊事件发生时,短期电力负荷的快速变化或极端波动;2.不能适应超出历史数据涵盖范围的新场景;3.无法基于文本数据(新闻事件)进行预测推理。 提出lntelligentText-AnalyticLoadForecasting(ITA-LF):LLM能够基于语言有效处理、整合非结构化及海量多源数据,通过Agent筛选实时相关新闻并理解文本逻辑,显著提升预测的适应性和精确度。 LLMs Agent Reasoning Ilistorical Data covers (I doy) and the data frequencyis (30winwtes! per pointThe region is (NSW /QLD / SA / TSA / VIC):The date of prediction is (date) that is (veehday / weekendy, and itis tholidayname/nota holidoy]:The weather of prediction date: (miaimum temperatiae, iczximmfenperatare,fnmiairy.windpover,andpressiaref:News beforethe prediction News title,brief summary,tpublicationrimef.fcategoryh.fiallarticle.Output:Time serles of actual loadin thepredicrlondate) ITA-LF框架图 基于大语言模型实现高适应性负荷预测 基于新闻和负荷数据的ITA-LF预测效果普遍优于现有方法 基于大语言模型实现高适应性负荷预测AA 预测效果普遍优于现有方法,在不同时间和地理维度的适应性强,显著提升预测的适应性和精确度: 基于LLM的负荷预测显著提升准确性和可靠性,优化对突发变化的应对,突出了语言处理在整合非结构化信息中的作用,标志负荷预测及时序决策研究范式的转变。 调度大模型研究背景 基于前期研究,我们发现可以将调度、市场行为以大语言模型的形式建模(语言模型化),解决传统调度支撑体系中调度行为没有有效建模工具的问题。我们希望实现调度行为数据(包含语音、拓扑结构、文本等多模态数据)、调度规程及系统工况等数据的统一表示,基于大语言模型多智能体实现调度行为的理解、推理、操作序列生成、智能博奔策略生成、市场波动响应及决策优化等目标提高调度安全性与效率 调度大模型数据处理 调度大模型交互页面 初版领域数据集 教材,论文集,章程等调度场景数据等 大模型训练数据集 业务场景支持: 领域对话问答数据集 经济调度操作监护黑启动 测试集评测体系: 评测围绕调度大模型在事实性、逻辑性、稳定性、公平性、安全性、表达能力六大类二十四个子维度展开评估。 测试集题型设定: 客观题:判断题、选择题、问答题主观题:问答题 评测方法: 客观题:GPT-4+评测脚本主观题:GPT-4+人工评测 调度大模型效果验证 调度测试数据集 调度相关问题的逻辑性、稳定性和安全性上表现优于ChatGPT 在多人指标上接近ChatGPT的表现 信息物理社会系统仿真/数字李生 ·大模型的“智能涌现”现象,再次表明复杂系统的研究问题无法完全在还原论的框架下解决。·受薛寓胜院士的整体还原论(WRT)方法论的启发,我们在思考如何将大模型应用于解决复杂的信息物理社会系统(CPSSE)的仿真问题。·WRT以CPSSE框架刻画复杂系统,以混合动态仿真来提取对象系统的高维仿真轨迹,基于轨迹动力学的时空保映射,将复杂系统的研究从线性的“局部还原”提升为非线性的“整体保摘还原”。·大语言模型可以基于仿真或实测轨迹数据,基于其内化的理论常识,以一定概率在局部自主进行逻辑推理,实现对复杂系统局部的可解释性·基于大模型内化的理论常识,大模型也可以用作严格因果模型与近似模型的选择器。·在CPSSE中,社会行为的建模是研究难点。·我们的初步研究表明,大语言模型已具有模仿人进行系统性逻辑思维的能力。因此,可以在CPSSE仿真中,结合真人、因果模型和大语言模型,实现更精确的人机混合仿真。·大模型的推理可靠性与“幻觉”问题,自前尚无法完全解决。现阶段,”人机混合智能”可能是最符合电力系统实际的解决方案。·CPSSE仿真问题解决后,通过CPSSE对实际系统进行反馈,构建大模型驱动的数字李生,是研究的终极目标。 传统经济学仿真面临的困难 传统方法大多依赖于数学模型。当仿真涉及多个参与者和复杂策略时,传统方法往往难以应用,因为计算和分析的复杂度极高。 动态博奔求解难度大:在动态和不完全信息的博奔情境中,传统方法很难求得收敛解。 泛化性较差:对于那些需要快速适应新信息和变化的实际应用场景,传统的数学方法缺乏灵活性。 大模型经济学仿真的潜力 推理能力:LLMs拥有处理复杂问题和理解复杂语境的能力,这使它们能够理解和分析复杂的博奔策略。 泛化能力:得益于LLM出色的zeroshot能力,快速适应市场的动态变化结合大量历史案例,提高仿真的准确性和效率。 代理模拟:将LLM与多代理仿真结合通过模拟市场中player行为或策略,为市场仿真提供了一种新的思路。 大模型智能体 构建调度员与智能体高效沟通协议与流程 规划:通过调度大模型进行调度任务拆解、工具使用链,使用思维链加强大模型进行推理思考; 反思:通过执行调度任务后的系统与调度员的结果反馈,自学习奖励总结经验,形成长期记忆与规则,帮助智能体自我升级;多智能体协作:研究多个智能体之间高效通信、通信协议、合作与博奔机制; 智能体记忆数据库选型 FAISS:向量高