清华大学新闻与传播学院元宇宙文化实验室 @新媒沈阳团队AIGC2024年1月(Sora发布之前)(本报告部分内容由AI生成,如有错误,告知修改) AIGC系列研究资料 聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。 报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索,致力于向读者提供全面了解AIGC动态的指南,共同探寻人工智能和人类未来发展的和谐之道。 AIGC报告2.0 技术与演进 为什么是OpenAI率先突破 2017年6月,谷歌大脑团队发表论文《Attention is all you need》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。 u2018年10月,提出3亿参数的BERTu2019年10月,提出110亿参数的新预训练模型-T5u2021年1月,推出1.6万亿参数的Switch Transformeru2021年5月,发布1370亿参数的LaMDA u2018年6月,推出1.17亿参数的GPT-1模型u2019年2月,推出15亿参数的GPT-2u2020年5月,发布了1750亿参数的GPT-3u2022年3月,InstructGPT发布,回答更加真实u2022年11月,ChatGPT发布,并率先破圈 u坚定的科技信仰:坚持不断改进GPTu开放的合作伙伴:与微软达成合作u较少的商业顾虑:声誉成本、利益冲突 ChatGPT创新:持续迭代迈向AGI 已实现的创新 尚未实现的创新 自然语言处理(NLP)的进步 高级情感智能 ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。 虽然具备基本的情感识别能力,但在理解和表达复杂情感方面仍有局限。 上下文感知对话管理 深层次常识推理 能 够 在 一 定 程 度 上 理 解 和 记 忆 对 话 历 史 , 实 现上下文顺畅的交流。 在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。 跨领域知识应用 无偏见输出 由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见 集 成 了 广 泛 的 领 域 知 识 , 可 以 在 多 种 主 题 上 进行交流和生成信息。 用户意图识别与适应性回应 具 备 识 别 用 户 意 图 并 据 此 调 整 回 答 的 能 力 , 能够根据不同的查询提供相应的信息和服务。 长期记忆和持续学习 长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强) 多模态交互能力 集 成 并 理 解 多 种 类 型 的 数 据 ( 如 文 本 、 图 像 、声音)进行综合交互。 GPT4:一骑绝尘进化迅速 ChatGPT 4.0相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。 OpenAI宫斗:利益冲击观念博弈 OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。 观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。 “加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。 11月16日:苏茨克维通知奥特曼开会。 11月17日:奥特曼、布罗克曼和OpenAI高级研究员相继离职。 “末日论派”:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。 11月18日:投资者愤怒并要求奥特曼回归,董事会初步同意。 事件核心人物 11月19日:奥特曼等加入微软,近750名OpenAI员工威胁集体辞职,要求奥特曼回归。 uO p e n A I联 合 创 始 人 、 前C E O山 姆·奥 特 曼 (S a m A l t m a n) uO p e n A I联 合 创 始 人 、 前 总 裁 格 雷 格·布 罗 克 曼( G re gB ro c k m a n )uO p e n A I联 合 创 始 人 、 首 席 科 学 家 伊 尔 亚·苏 茨 克 维 (I l y aS u t s ke ve r)uO p e n A I首 席 技 术 官 米 拉·穆 拉 蒂( M i r a M u r a t i )u微 软 公 司 首 席 执 行 官 萨 提 亚·纳 德 拉 (S a t y a N a d e l l a)uO p e n A I临 时 首 席 执 行 官 埃 米 特·谢 尔 (E m m e t t S h e a r) 11月20日:奥特曼、布罗克曼与OpenAI董事会谈判,微软对奥特曼的回归持开放态度。 11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。 结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。 2024焦点:改善体验多模突破 五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频 高性能推理硬件成本 AI幻觉率 复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。 提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。 图像多语种文字生成 生成内容一致性 保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC领域的重要挑战。 目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。 文本生成视频 文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。 自注意力:动态聚焦平衡权重 u用户:我昨天晚上去了一个音乐会,主要是为了看我最喜欢的乐队,但是开场乐队也非常棒。 自注意力机制帮助AI关注到用户最关心的问题。 uAI注意到用户提到了关键信息点“最喜欢的乐队”,机器人据此询问了更多的细节。 对话 uAI注意到用户对“开场乐队”的正面评价,机器人随后询问了更多关于开场乐队的信息。 u自注意力机制为每一个关键信息分配一个“注意力权重”。u生成图像时,根据权重来确定每个部分的细节和重要性。 u用户描述:“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边,背景是雪山。”该描述中有三个关键信息:红色连衣裙的女人、蓝色的湖、雪山背景。 u例如,红色连衣裙的女人可能会被赋予较高的注意力权重,因此在图像中她的细节和颜色可能会被更加准确地渲染。 u同样,蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。 世界模型:另一可能规划推理 ——图灵奖得主Yann LeCun 世界模型可能带来? “世界模型”指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。 u提升自主学习能力:不再依赖于大量的手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。 u提升认知能力:随着机器对复杂环境和抽象概念理解的加深,世界模型可以推动AI在需要高级认知能力的领域的应用,如法律分析、财务规划等。 Joint Embedding Predictive Architecture(JEPA) 自回归模型没有规划、 推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。 【学习方法】:自监督学习,通过创建外部世界的内部模型来学习【模型目标】:实现更高级的图像分析和理解,理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构,学习表示的层次结构【应用领域】:图像分析和理解类任务 u提升决策和预测能力:世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。 多模融合:高维互联信息贯通 多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。 在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如: 多模关键:意图感知自我演化 关键技术 难点 可能的突破方向 u环境动态性:环境和任务需求经常变化,实时评估和选择最优模态是一个复杂的问题。 u自适应模态选择与优化: u意图感知的模态选择:搭载“意图解析引擎”,能从多模态数据中抽取和理解用户或系统深层次的意图,并据此进行选择。 在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。 u高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)上进行优化,这增加了问题的复杂性。 u时间-空间-模态联合优化:开发全新的“多维度优化框架”,能够在多个维度上动态调整和优化资源,如减少时间延迟,选择最优数据来源地和最有用模态维度。 u实时多模态处理与决策: u实时性与准确性的权衡:在有限的时间内进行复杂的多模态数据分析是一个挑战。 强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。 u数据同步:在实时环境中,来自不同模态的数据需要准确地同步,以便进行有效的分析和决策。 u自我演化的交互模式:引入一种全新的“演化算法”,能够模拟人类学习和适应的过程,使HCI系统在识别用户行为模式的同时,还能发现隐藏的需求或习惯,并根据这些信息进行自我演化。 u人机交互的多模态适应: u用户多样性:由于用户的需求和习惯都是独特的,实现个性化的多模态适应性是一个复杂的问题。 在人机交互(HCI)环境中,多模态大模型需要能够根据用户的行为和反馈进行自适应调整。这可能包括动态地改变输入/输出模态、调整交互界面等。 u实时反馈:获取并处理用户实时反馈以进行适应性调整也是一个技术挑战。 多模数据:关系对齐数据映射 多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推动多模态技术的进一步发展,并实现更多实际应用的落地。 可能的突破方向 u不同模态间数据的对齐和融合 需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性问题,以进行有效表示。 u“多模态安全网格”:将不同模态的数据加密分布在一个高维的“安全网格”中,当一个模态受到攻击时,网格能够利用自我修复能力动态地调整其他模态的安全策略以减少风险。 u多模态数据的时序处理 难以捕捉不同模态数据之间的时序依赖性和动态变化。 u“动态多模态数据映射”:利用VR、AR以及动态系统等技术,将数据可视化由静态的展示过程调整为动态的映射过程,实现系统能够根据用户的交互和反馈,实时地调整数据的可视化和解释性表示。 u多模态数据的安全性与隐私保护 多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。 u多模态数据的可视化和解释性 多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的计算资源。 模态进化:具身智能实体连接 多模AIGC:异构