AI智能总结
演讲⼈:刘邦蒙特利尔⼤学 & Mila研究所 助理教授Canada CIFAR AI Chair CONTENTS⽬录 01⼤模型与智能体 02多模具身智能体 04科学领域智能体 03 推理密集智能体 LLM and Agents01它的定义,框架,与挑战 什么是Agent? Agent的定义 “Anagentisanythingthatcanbeviewedasperceivingitsenvironmentthroughsensorsandactinguponthatenvironmentthroughactuators.——StuartJ. RussellandPeterNorvig” “Anagentisasystemthatcanhelpcompletetasksintelligently.” Just Do It But how? We need tools Just Say It But how? We need tools 幕后主脑 But how? We need 基于LLM的⾃然语⾔处理 Agent系统框架 ⼀些现存的 Agents LLM Agent的⼀些核⼼挑战 ❖How to represent and align multimodal input signals?❖How to achieve real-time perception in dynamic settings?❖How can agents handle incomplete or noisy data robustly? ❖How to perform complex tasks?❖How to deal with unseen tasks?❖How to learn and utilize domain knowledge? ❖How to effectively execute actions?❖How to search huge action space?❖How to design and evolve tools? 研究轨迹 近期成果 Multimodal Embodied Agents02 我们离具身智能助⼿还有多远? What We Want v.s. What We Get Case Study: Embodied Instruction Following (EIF) Case Study: Embodied Instruction Following (EIF) OPEx: A Component-Wise Analysis OPEx: A Component-Wise Analysis OPEx: A Component-Wise Analysis OPEx: A Component-Wise Analysis OPEx: A Component-Wise Analysis Insights from OPEx We Need to Strengthen Multimodal Perception ⽂档理解(DocUnderstanding)❖⽬前⼤多数⽂档LLM评测中,答案仅来⾃于图中的⽂字部分 视觉问答(VQA)❖可能不需要图像信息即可回答 场景⽂字识别 (Scene Text Recognition)❖可能直接通过OCR识别⽂字图象,不需要⾃然语⾔知识 视觉字幕恢复(VCR) 图像中被覆盖的⽂本是什么?请在不输出解释的情况下还原被覆盖的⽂本。 ❖答案取决于图像+⽂字图像+像素级⽂字提示+⾃然语⾔问题 ❖优势:需要进⾏图像/⽂字图像/⾃然语⾔三者的对⻬ 视觉字幕恢复(VCR) ⼈类在视觉补全上的复杂机制 ❖⼈类很擅⻓识别被部分遮挡的物体❖⼈类在识别时会使⽤不同的脑区❖在识别被遮挡的事物涉及⼤脑不同区域之间的复杂协同,这些区域与视觉和感知控制相关 VCR任务的独特性 ❖设计初衷:解决视觉问答和场景⽂字识别中的问题 ❖不能避免多模态识别:图像信息对于正确回答是必需的❖不能通过OCR解决:被遮挡的⽂字仅保留像素级提示,⽆法通过OCR识别❖具有唯⼀答案:与Masked LM不同,VCR中被遮挡的⽂字被露出的像素级提示唯⼀确定,可使⽤准确度(ACC)作为评测指标 ❖设计理念:将图像中的⽂字作为第三种模态对待❖图像中的⽂字具有和字符串类型⾃然语⾔/常规图像不同的特征,在多模态模型中应该单独加以考虑 ❖设计实现:对于图像/⽂字来源及难度的⾼度灵活性 ❖遮挡⽂字选择的灵活性:可选择遮挡特定token/句⼦/n-gram/POS Tag❖遮挡区域选择的灵活性:可调节遮挡⽂字区域的空⽩框⾼度来控制任务难度❖图像构建⽅式的灵活性:可选择在⽂字部分基础上有/⽆配套图像探究额外图像对模型影响 VCR-Wiki数据集构建 ❖我们基于维基百科构建了适⽤于VCR任务的数据集VCR-Wiki ❖包含两种语⾔:简体中⽂和英⽂❖包含两种难度:简单(OCR⽆法完成的难度)和困难(遮挡⽂字上下仅各保留1-2个像素)❖包含训练集+验证集+测试集,其中训练集可以作为多模态⼤模型SFT数据 VCR-Wiki数据集构建 1.数据清洗:基于wit-base数据集,去除不含zh/en的条⽬及部分敏感条⽬ 英⽂VCR样例 中⽂VCR样例 实验观察 ❖在VCR-Wiki上,对应语⾔的熟练使⽤者能够在简单和困难难度上取得超过90%的准确率,⽽模型距离⼈类⽔平还有极⼤差距 ❖⽬前开源模型整体弱于闭源模型,但存在有开源模型(如CogVLM2)能够以19B参数量⼤幅超越相似⼤⼩的开源模型及部分闭源模型 ❖VCR任务虽然看似简单,但其挑战涉及模型分辨率压缩(对像素级⽂本提示的保留),模型推理(利⽤上下⽂推断被覆盖⽂本)和常识利⽤(维基百科内容应已被各模型训练集覆盖,但效果仍然不好),在该评测上的提升还有很⻓的路要⾛ ❖我们在持续更新新模型在VCR-Wiki上的效果,希望能将VCR构建成未来的视觉-语⾔模型(VLM)常⽤评测之⼀ Resources about VCR 机器之⼼报道Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 Hugging FaceVCR: Visual Caption Restorationa vcr-org Collection (huggingface.co) GitHubhttps://github.com/tianyu-z/VCR arXivVCR Visual Caption RestorationArxiv-2406.06462 使⽤open-compass/VLMEvalKit进⾏测试open-compass/VLMEvalKit: Open-sourceevaluation toolkit of large vision-languagemodels (LVLMs), support GPT-4v, Gemini,QwenVLPlus, 50+ HF models, 20+benchmarks (github.com) 使⽤EvolvingLMMs-Lab/lmms-eval进⾏测试EvolvingLMMs-Lab/lmms-eval: Acceleratingthe development of large multimodal models(LMMs) with lmms-eval (github.com) ⼩结:多模态与具身Agent OPEx VCR VCR任务有助于提⾼多模态的表示学习,可成为视觉-语⾔模型(VLM)常⽤评测任务之⼀ ⽬前 LLM-centered EmbodiedAgents 瓶颈在于多模态Perception的表征与具身Action的执⾏ Reasoning-Intensive Agents03“体⼒”有待提⾼,“脑⼒”⽔平如何? “⼈”是环境的⼀部分 剧本杀(Jubensha) ⽬标:减少 Hallucination,增强 Reasoning ThinkThrice:三思⽽后⾏ 数据集 ❖We collected1,115Jubensha gameinstances. ❖Each game can have1 to 20 players ❖game token count can reach up to518,000, enabling further research onsocially intelligent AI. 数据申请与开源代码 实验设定 Reference: Wu et al. "Deciphering Digital Detectives: Understanding LLMBehaviors and Capabilities in Multi-Agent Mystery Games"ACL Findings(2024). 实验结果与观察 MR:Memory RetrievalSR:Self-RefinementSV:Self-Verification ❖收集到的相关信息越多,代理通过推理解决问题的能⼒就越强。 ❖在给定相同信息的情况下,LLM 的固有推理能⼒决定了代理解决问题的表现。 ❖“三思”显著提升推理能⼒ ⼩结:复杂推理Agent ThinkThrice Jubensha “三思”通过记忆检索,细节增强,反思修改来验证和加强推理结果,从⽽提⾼复杂推理的准确性,减少幻觉现象的影响。 剧本杀游戏的诸多特点使得其成为⼀个很好的评测任务,可以衡量Agent的多种能⼒ Scientific Agents04另⼀类复杂性:Knowledge 如何让Agent获取专业知识,解决复杂任务? Key 1:学习专业知识 HoneyBee HoneyBee is the first billion-parameter scale languagemodel that is specialized inmaterials science MatSci-Instruct and HoneyBee Training Workflow Experimental Results ❖Instruction data generated by ourgenerator improves model performance ❖The verifier part further improves dataquality ❖HoneyBee improves progressively Experimental Results ❖We evaluate HoneyBee on MatSci-Instruct benchmark ❖Low-resource setting:it out-performsBERT-family models ❖Zero-Shot setting:it out-performsLLaMA-family models Key 2:善⽤外部⼯具 HoneyComb ⼯具构造和使⽤ ❖所有基于 HoneyComb 的模型在 MaScQA 和SciQA 上的准确率均有显著提升。 ❖总体趋势表明,HoneyComb 显著提⾼了模型性能。LLaMA-3 和HoneyBee 有明显提升。 Reference: Zhang et al. “HoneyComb: A Flexible LLM-Based Agent System forMaterials Science”arXiv preprint (2024). Key 3:化繁为简,统筹思考 Data Interpreter: 智能体也能玩转数据 Data Interpreter: 智能体也能玩转数据 Reference: Hong et al. “Data




