您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学]:AIGC时代的多模态知识工程思考与展望 - 发现报告
当前位置:首页/其他报告/报告详情/

AIGC时代的多模态知识工程思考与展望

2023-03-18-复旦大学J***
AIGC时代的多模态知识工程思考与展望

AIGC时代的多模态知识工程思考与展望分享人:李直旭(研究员、博导)复旦大学计算机科学技术学院2023.03.18DataFunSummit2023:知识图谱与AIGC论坛 分享人简介复旦大学计算机科学技术学院研究员、博士生导师复旦大学知识工场实验室执行副主任、数据工程与多模态智能研究组负责人上海市数据科学重点实验室办公室主任中国计算机学会高级会员、数据库专委会委员中国中文信息学会语言与知识计算等专委会委员李直旭个人简历•澳大利亚昆士兰大学计算机科学博士•中国人民大学信息学院计算机学士&硕士•前苏州大学计算机学院教授、博导•前科大讯飞苏州研究院副院长(兼)主要研究方向为知识图谱、知识工程与认知智能、自然语言处理等已累计在知名期刊与国际会议上发表论文150余篇拥有授权发明专利20余项主持国家级和省部级纵向科研项目累计近十项与华为、阿里、科大讯飞等人工智能企业保持长期合作 01 AIGC时代:未来已来02 AIGC的阿克琉斯之踵03多模态认知智能目录04 AIGC for MMKG05MMKGforAIGC06AIGC + MMKG PART 1AIGC时代:未来已来 ChatGPT的爆红出圈宣告了生成式人工智能(AIGC)时代的到来随着算法的不断迭代,生成式人工智能技术(AIGC)不断发展。上图摘录自:国泰君安证券《ChatGPT研究框架(2023) 》 AIGC时代:万物皆可AI生成AIGC可生成的内容形式已囊括文本、图像、音频和视频。AIGC音频生成图像生成文本生成视频生成Jasper、copy.Ai、ChatGPT、Bard、GTP4EditGAN、Deepfake、DALL-E、Stable DiffusionDeepMusic、WaveNet、Deep Voice、MusicAutoBotDeepfake、VideoGPT、GliaCloud、ImageVideo(一个很有意思的画,来自互联网) 多模态大模型的分类与发展脉络多模态文图生成大模型多模态统一大模型 文图生成AIGC–逼真、高清;风格、意境•太乙StableDiffusion的意境绘画•GoogleImagen的高清作画 文图生成AIGC–精致、可控 视频生成AIGC–自然流畅、栩栩如生洗盘子的泰迪熊遨游太空的木船由静态图生成动态图时代广场的跳舞机器人 多模态AIGC大模型驱动的具身智能谷歌5620亿参数PaLM-E,将真实世界的传感器信号与文本输入相结合,建立语言和感知的链接,可操控机器人完成任务规划和物品操作。PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。ü在机器人操作规划、视觉问答和字幕生成等任务中进行了端到端的训练ü主要架构思想:将连续的、可感知的观察数据注入预先训练的语言模型的嵌入空间中,以使其能够理解这些连续数据。这是通过将连续观测数据编码为与语言嵌入空间中的语言标记具有相同维度的向量序列来实现的。这种连续信息以类似于语言标记的方式注入语言模型中。 IstheAIGAMEOVER?•RichSutton在著名文章《苦涩的教训》中:•唯一导致AI进步的是更多的数据、更有效的计算。•DeepMind 研究主任Nando de Freitas 宣称:•AI「现在完全取决于规模」。•AI 领域更难的挑战已经解决了。「游戏结束了!」•目前,大多数领域,大模型已经(暂时)战胜了精心设计的知识工程。•然而:IstheAIgameREALLYover? PART 2AIGC的阿克琉斯之踵 ChatGPT(包括GPT4)的诸多问题难以忽视强语言,弱知识:“一本正经地胡说八道”逻辑推理不靠谱:不论是数学逻辑还是专业逻辑无法真正为领域类问题提供专业、靠谱的答案实时信息自更新慢,新旧知识难以区分Q:红楼梦中贾宝玉为什么要葬花?A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零...Q:现任韩国总统是谁?A:现任韩国总统是文在寅。Q:gpt4是什么时候发布的?A:抱歉,目前还没有关于GPT-4的官方发布计划和消息。Q:华为手机没电了,请问能否使用苹果手机的充电器充电?A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。Q:鲁迅和周树人是同一个人吗?A:不是同一个人,鲁迅和周树人是两个不同的人。鲁迅...而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家,代表作品有《春蚕》、《子夜》等。Q:3个人3天用3桶水,9个人9天用几桶水?A:根据题目可知,3个人在三天内用了3桶水,可以推算出每天每人用水量为:3 桶/ 3 人/ 3 天= 1 桶/ 人/ 天因此,在9个人使用9天内需要的总用水量为:1 桶/ 人/ 天×9 人×9 天= 81 桶所以,9个人在九天内需要用81桶的水。(正确答案应该是:27桶水) 多模态大模型的跨模态生成能力尚不完善组合泛化问题input:绿草红花input:红草绿花属性泄露问题Input:A couch on the left of a chair.椅子左边的沙发方位理解混乱语义理解错误文到图生成:来自Stable DiffusionAIGC跨模态生成虽然视觉效果惊艳,但往往存在较大的信息不对称性Input:a photograph of a horse riding an astronaut一匹马骑着宇航员的照片 多模态大模型尚未完全理解多模态数据回答错误,因大模型不知晓球拍上的w图案是品牌wilson的logo回答错误,因在海边拿着冲浪板应该是去冲浪,冲浪需要穿wetsuits回答错误,需要针对场景“在车上看手机是否合法”进行推理。大模型驱动的跨模态问答,往往因缺乏知识和常识而产生错误回答。事实知识不足常识储备不足逻辑推理欠缺Is this illegal or legal?视觉问答VQA:来自BLIP2 多模态大模型PaLM-E离实用级还有多远?谷歌的PaLM-E虽然依赖于如此大规模的参数初步实现了对机器人的操控,但其Demo展示的空间范围、物品种类、任务规划复杂度等还比较有限。千亿规模参数,DEMO展示却:ü当前的空间范围封闭有限ü当前的物品种类数量有限ü当前的规划任务比较简单ü当前的操作任务比较简单如果要在真实世界的复杂场景中达到实用级别,PaLM-E的参数规模是否还需要增大百倍、千倍、甚至万倍?如果一味用海量参数来存储所有知识,智慧涌现的代价是否过于昂贵? 小结:多模态大模型的本质、前提与不足剖析统计模型难以较低成本全面准确地掌握人类的知识、常识与逻辑推理能力。用语言解释视觉:将语言中蕴含的符号知识体系和逻辑推理能力延伸至对视觉内容的理解;用视觉完善语言:丰富的视觉信息可以成为符号知识体系和逻辑推理能力的重要完善补充。多模态大模型的本质:“用语言解释视觉,用视觉完善语言。”将文本中的语言符号知识,与视觉中的可视化信息建立统计关联。1)数据大但质量差,信息不对称;2)纯文字中的知识与常识不完备;3)逻辑推理隐性难以学习。1)海量高质量图文配对数据;2)文字富含事实知识和常识;3)逻辑推理过程可显化被学习。重要前提现实状况事实知识不足常识储备不足逻辑推理欠缺组合泛化问题属性泄露问题方位理解混乱语义理解错误 PART 3多模态认知智能 多模态认知智能:研究框架corpora抽取生成群智多模态图谱常识图谱语言模型大规模知识网络KGLMDTDN常识理解多模态理解实体理解概念理解schema理解跨模态推理(符号/隐性)跨模态归纳与演绎跨模态概念想象价值引领跨模态搜索跨模态推荐跨模态问答自知之明因果理解InferenceWhy?UnderstandingWhat?多模态知识获取跨模态生成......Meta-cognitionWhy、How?自主学习Languagemodel萃取多模态知识表示多模态知识应用多模态认知智能:基于多模态数据的知识获取、表示、推理与应用。 多模态认知智能:两种实现路径在AIGC大模型时代,多模态知识工程依然不可或缺。多模态大模型(连接主义、经验主义)多模态知识工程(符号主义)统计学习•端到端、干预少•“数”尽其用概率关联、简单鲁棒往往难以学习从因到果、从主到次、从整体到部分、从概括到具体、从现象到本质、从具体到一般等逻辑关系专家系统、知识图谱•易推理、可控、可干预、可解释•信息损失海量预训练数据数据转换成符号知识的过程往往伴随着巨大的信息损失,隐性知识、难以表达的知识是损失信息中的主体符号表达、可见可控精选数据+专家知识 多模态知识图谱(MMKG):当前多模态知识工程的主要形式《葡萄牙人》国歌多模态知识图谱可以将符号接地到具象的视觉等模态对象上,实现跨模态语义对齐多模态知识图谱(Multi-Modal Knowledge Graph)•在传统知识图谱的基础上,增加多种模态数据以丰富符号知识的表达•多模态数据包括但不限于:图像、视频、语音、代码 多模态知识图谱(MMKG):两种主流形式N-MMKG:MMKG with multi-modal data as entitiesA-MMKG:MMKG with multi-modal data as attribute valuesX.Zhu,Z.Liet.al.Multi-Modal Knowledge Graph Construction andApplication: A Survey,AcceptedbyTKDEinDec.2022多模态知识图谱的两种常见形式:•多模态数据仅作为文字符号实体的关联属性存在•多模态数据也可作为图谱中的实体存在,可与现有实体发生广泛关联 AIGC多模态大模型VS.大规模多模态知识图谱因此:当前阶段,大模型与知识图谱仍应继续保持竞合关系,互相帮助,互为补充。多模态大模型的优点多模态大模型的不足多模态知识图谱的不足多模态知识图谱的优点•关联推理强:可以学习掌握大量跨模态知识模式,隐空间的关联推理能力强,具有很强的泛化能力•多任务通吃:一套大模型处理各类跨模态任务•人工成本低:不依赖人工Schema设计与数据标注•适配能力强:可通过调优训练或Prompt对话等方式来适配新的领域和任务•可靠程度低:所生成内容可靠性堪忧,存在误差累积、隐私泄露等,无法胜任高精度严肃场景需求•知识推理弱:没有真正掌握数据背后的知识,缺乏知识推理能力,更无因果推理能力•可解释性弱:虽有COT加持,但可解释性仍然不足•训练成本高:需要消耗大量的计算资源和时间来进行训练,需要强大的计算设备和高效的算法•推理能力弱:只能表示已有的知识和关系,对于未知或不确定的领域难以进行有效的知识建模和推理•人工成本高:其构建需要依赖于人工或半自动的方式进行知识抽取和建模,难以实现完全自动化•架构调整难:其基本schema架构通常是静态的,不易根据新的数据或场景进行修改和调整•专业可信高:其结构和关系清晰,易于理解和解释,可为人类决策提供参考,通常为某个具体应用场景而构建,可提供更精准和针对性的知识支持•可解释性强:以结构化形式表示知识,知识的可访问性、可重用性和可解释性好,对人类友好•可拓展性好:知识图谱的内容可以随着应用场景的需要进行不断扩展和更新,可以不断完善和改进 PART 4AIGCforMMKG AIGC为知识获取降本增效:知识诱导可快速获取大量知识或常识Yang, H.-Y., & Silberer, C. (2022). Are Visual-Linguistic Models Commonsense Knowledge Bases? Coling, 5542–5559. https://pypi.org/project/语言模型作为知识库•从语言大模型中探测语言知识•从语言大模型中探测关系知识视觉语言模型作为常识库•从多模态大模型中探测跨模态对齐知识•从多模态大模型中探测视觉常识知识大模型知识诱导(萃取):利用Prompt机制来获得多模态大模型中富含的知识。Petroni, F., Rocktäs