AI智能总结
Multi-modalmulti-taskwindpowerpredictionalgorithmbasedon largelanguagemodel 凡航华北电力大学2025年9月25日 个人简介 凡航,现任华北电力大学经济与管理学院讲师,硕士生导师,中国电机工程学会第十届青年托举人才,清华大学电气工程专业博士,清华大学五道口金融学院和交叉信息研究院联合培养博土后,特许金融分析师(CFA)持证人。长期从事电气工程、人工智能和金融相关的交叉研究主持和参与电网与人工智能类科技项自10余项发表/录用SCI/EI和核心期刊论文30余篇,已授权发明专利8项,参与撰写数据经济方面的专著1本曾获得全国人工智能应用场景创新挑战赛二等奖国网上海市电力公司科技进步二等奖、国家奖学金和清华大学数据科学特等奖学金等荣誉。 基于大语言模型的多模态多任务风电场功率预测研究 研究背景及意义基于预训练大模型的超短期风电场功率预测面向零样本风电功率预测的基座模型四、结论与展望 基于大语言模型的多模态多任务风电场功率预测研究 新能源发展现状 随着“双碳”目标的逐步落实,我国新能源飞速发展,装机规模连续多年稳居世界第一。截至2024年底我国风电、太阳能发电装机合计达到了14.1亿干瓦,占总发电装机的比重超过40%,提前6年完成我国承诺的“到2030年中国风电、太阳能发电总装机容量达到12亿干瓦以上”目标。 基于大语言模型的多模态多任务超短期风电场功率预测研究 新型电力系统 随着大规模新能源电力接入电网,电力系统需要在随机波动的负荷需求与随机波动的电源之间实现能量的供需平衡,其结构形态、运行控制方式以及规划建设与管理将发生根本性变革,形成以新能源电力生产传输、消费为主体的新一代电力系统,即以新能源为主体的新型电力系统。 基于大语言模型的多模态多任务超短期风电场功率预测研究 适应新型电力系统特点的新一代预测方法 随着新型电力系统结构目益复杂风电、光伏、负荷、电价等多个场景波动性日益增加,函需新一代预测方法研究。生成式人工智能,特别是大模型技术的兴起,突破了原有数据驱动方法存在的知识形式化难、模型泛化性差、重复建设率高等难题,为新型电力系统的能源时间序列预测开辟了新的思路。 基于大语言模型的多模态多任务超短期风电场功率预测研究 适应新型电力系统特点的新一代预测方法 我们能否借助于大模型的多模态强泛化能力设计预测模型提升预测精度? 传统时间序列预测模型Y = f(xo) 基于大语言模型的时间序列预测模型Y = f(task, xo) 融合文本、时序数值等多模态数据,利用大语言模型的预训练知识,从更高维度理解预测情通过自然语言提示(Prompt)等方式,模型不仅能学习数据中的相关性,更能理解预测任务的“语义”,超越了单纯的数值拟合。 仅考虑待预测目标风电场的数据信息场间联系分析较少。利用的信息维度单一,仅利用时序数据信息,无法充分利用文本等跨模态信息 基于大语言模型的多模态多任务超短期风电场功率预测研究 适应新型电力系统特点的新一代预测方法 当前任务问题 采用多任务学习与基座模型框架,实现对区域内所有风电场的统一建模与同步预测。这类方法能够通过一个模型对风电场进行多时间尺度预测通过在海量多站点数据上预训练,模型学习广域范围内的普遍物理规律,打破单一风场的限制,实现新建风电场的零样本学习。 核心弊端 传统上需要为每一种预测任务单独设计和训练一个专用模型,导致研发工作量呈指数级增长。不同任务的模型之间无法共享信息,忽视了这些任务背后共通的物理关联。 基于大语言模型的多模态多任务超短期风电场功率预测研究 研究背景及意义基于预训练大模型的超短期风电场功率预测面向零样本风电功率预测的基座模型四、结论与展望 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 M2WLLM是其核心在于通过整合文本信息与时序数值数据,充分利用LLM强大的预训练能力来进行预测。模型接收两种心设计的自然语言提示词(Prompts),为模型提供任务背景和数据特征等高级别语义信息;原始的时间序列数据,如历史风功率和数值天气预报。 在处理流程上,模型采用双路嵌入机制:提示词嵌入器直接利用LLM的词嵌入层处理文本,而数据嵌入器则作为关键桥梁,专门处理数值时间序列。两者生成的向量被拼接后,输入到经过LoRA参数高效微调的LLM骨干网络中,进行深度的特征提取与时序建模。最后,LLM的输出经过一个线性层,将高维特征映射为最终的多步风电功率预测值 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 解决方案 面临的挑战 1.数据分块(Patching):将原始的长时序数据切分成若干个固定长度、有重叠的数据补丁(Patches)。既能让模型关注序列的局部细节模式,又能通过后续的注意力机制捕捉补丁间的全局依赖,从而高效处理长序列。 如何让大语言模型有效处理和理解长序列的纯数值数据?如何将数值数据与LLM庞大的预训练语言知识库进行关联? 2.语义增强(SemanticAugmenter)机制:通过交叉注意力机制,让数据补丁(作为Query),与LLM预训练的词嵌入矩阵(作为Key和Value)进行深度交互。将纯数值的数据补丁映射到LLM的语义空间中。它为数值数据赋予了丰富的语义内涵,使其不再是孤立的数字,而是能够被LLM的语言知识所理解和解释的全新表征。 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 Prompt设计 通过结构化的自然语言提示词,将纯粹的数值预测问题,转化为LLM更擅长的、带有丰富上下文的多模态理解任务。这种方法不仅为模型提供了明确的语义指导,帮助其快速聚焦任务目标,还能通过“轻风”、高气压”等描述性语言,有效激活LLM在海量数据预训练阶段学到的物理知识,从而辅助模型做出更符合真实物理规律的精准预测。 Short-term wind forecast aims to predict wind power for the upcoming hours. With a time stepof 15 minutes, forecast the next 16 steps given the previous 24 steps data 》任务指令:以15分钟为时间步长,请根据过去24个步长的历史数据,预测未来16个步长的风电功率 Task Prompt 》历史数据摘要:历史功率数据归一化范围从0.02到0.15,对应的历史风力等级为轻风。气象数据摘要: The sample provides historical power data of each wind farm from 9.a.m, to 15.p.m, on SatuerdayThe normalized data ranges from 0.02 to 0.15. The historical wind level is light. Prompt for historical wind power data 数值天气预报显示,未来风速平稳,范围在0.1至0.24之间,平均气压为1020hPa,属于高气压环境。 The sample provides numerical weather forecast data of each wind farm, including prediction offrom 0.1 to 0.24, The wind direction is consistent, with an average of 240°. The average airThewind speed isralm,rangingpressure is 1020 hPa, which is bish. Prompt for numerical weather prediction (NwP) 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 模型微调模式 LoRA微调模式:冻结LLM骨干网络的全部原始参数,以保留其强大的通用知识不被破坏。在模型的关键模块旁,注入两个小型的、可训练的低秩矩阵;在微调时,仅更新这两个低秩矩阵的参数,其参数量仅占原始模型的极小一部分。 核心优势:大幅降低训练所需的计算资源和显存,使得在常规设备上微调大模型成为可能。并有效地将LLM的通用能力适配到风电预测这一特定领域,显著提升了模型的小样本学习能力。 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 实验结果 根据在内蒙古、甘肃、云南三个不同区域风电场数据集上的测试结果,M2WLLM模型在所有预测时间尺度(15分钟、1小时、2小时、4小时)上的平均绝对误差(MAE)和均方根误差(RMSE)均显著低于所有对比方法,包括传统的LSTM、先进的Transformer变体以及同为大模型架构的GPT4TS。相较于仅处理数值的GPT4TSM2WLLM通过多模态架构和语义增强器,能更深刻地理解数据内在的物理模式,从而实现更高的预测精度。 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 实验结果 M2WLLM的优势在于各模块协同,可让大语言模型发挥预训练知识与多模态处理能力,提升风电预测效果。 替换模型任一关键模块都会使所有数据集的预测误差上升,其中语义增强器和微调模块影响更显著,提示模块虽影响较小,但也能提供语义指导、助力模型理解任务与数据。 加入数值天气预报(NWP)信息能持续降低各条件下的预测误差,且预测时间范围越长,NWP信息的影响越显著。 基于大语言模型的多模态多任务超短期风电场功率预测研究 基于预训练大模型的超短期风电场功率预测 实验结果 M2WLLM选用GPT2作为预训练的骨干网络。骨干网络中模型层数增加,模型预测精度总体提升,不过4层后提升不显著,说明模型有效性更靠架构,训练计算需求适中。 以甘肃数据集为例,不同骨干网络层数下模型的训练和推理时间。平均每轮训练时间和推理时间随LLMs层数增加而增加,但整体效率仍高。训练集超10000样本时,每轮训练不到1分钟,总训练时间在30分钟内;每批推理时间不到0.5秒,体现模型高效预测能力 基于大语言模型的多模态多任务超短期风电场功率预测研究 研究背景及意义基于预训练大模型的超短期风电场功率预测三面向零样本风电功率预测的基座模型四、结论与展望 基于大语言模型的多模态多任务超短期风电场功率预测研究 面向零样本风电功率预测的基座模型 面临的挑战 解决方案 》当前主流方法依赖于特定场站的数据,导致模型泛化能力差,开发和维护成本高昂。 为解决以上挑战,提出了面向零样本风电功率预测的基座模型-WindFM M2WLLM的思路是利用已有的LLM,通过多模态输入来增强特定任务的预测能力。而WindFM的思路则是从零开始,专门为风能领域预训练一个自己的、领域专用的基础模型,使其天然具备对风电物理规律的深刻理解,实现单一模型对多时间尺度预测任务的灵活预测。 Fan H, Shi Y, Fu Z, et al. WindFM: An Open-Source Foundation Model forZero-Shot Wind Power Forecasting[J] arXiv preprint arXiv:2509.06311,2025 基于大语言模型的多模态多任务超短期风电场功率预测研究 面向零样本风电功率预测的基座模型 核心框架:WindFM借鉴了自然语言处理的成功经验,将复杂的数值预测问题,巧妙地转化为一个类似"语言模型续写”的任务。 数据集:WINDToolkit(NREL)覆盖范围:美国本土超