您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:AIGC发展研究资料2.0(2024.1) - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC发展研究资料2.0(2024.1)

AIGC发展研究资料2.0(2024.1)

@新媒沈阳团队 AIGC2024年1月(Sora发布之前)(本报告部分内容由AI生成,如有错误,告知修改)AIGC发展研究资料(2.0版 修订号0.90)清华大学新闻与传播学院元宇宙文化实验室 报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索,致力于向读者提供全面了解AIGC动态的指南,共同探寻人工智能和人类未来发展的和谐之道。AIGC系列研究资料聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告,也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。AIGC报告2.0AIGC报告1.0注:图片为报告内容示例 技术与演进 为什么是OpenAI率先突破2017年6月,谷歌大脑团队发表论文《Attention is all you need》,首次提出了基于自注意力机制的Transformer模型,并首次将其用于自然语言处理。u2018年6月,推出1.17亿参数的GPT-1模型u2019年2月,推出15亿参数的GPT-2u2020年5月,发布了1750亿参数的GPT-3u2022年3月,InstructGPT发布,回答更加真实u2022年11月,ChatGPT发布,并率先破圈u2018年10月,提出3亿参数的BERTu2019年10月,提出110亿参数的新预训练模型-T5u2021年1月,推出1.6万亿参数的Switch Transformeru2021年5月,发布1370亿参数的LaMDAWHY——OpenAI & ChatGPT前瞻性AI视野多样应用探索人性化AI愿景正确合作对象长期研究投入强大技术实力......u坚定的科技信仰:坚持不断改进GPTu开放的合作伙伴:与微软达成合作u较少的商业顾虑:声誉成本、利益冲突 跨领域知识应用集成了广泛的领域知识,可以在多种主题上进行交流和生成信息。上下文感知对话管理能够在一定程度上理解和记忆对话历史,实现上下文顺畅的交流。自然语言处理(NLP)的进步ChatGPT在理解和生成自然语言方面表现出色,展示了先进的自然语言理解和生成能力。用户意图识别与适应性回应具备识别用户意图并据此调整回答的能力,能够根据不同的查询提供相应的信息和服务。多模态交互能力集成并理解多种类型的数据(如文本、图像、声音)进行综合交互。已实现的创新ChatGPT 创新:持续迭代 迈向AGI 高级情感智能虽然具备基本的情感识别能力,但在理解和表达复杂情感方面仍有局限。深层次常识推理在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。无偏见输出由于训练数据的限制,模型输出可能受到数据、技术等偏见的影响。由于人类的偏见,故AI其实也无法实现完全的无偏见长期记忆和持续学习长期记忆和对过去交互的连续学习能力是目前AI领域的挑战之一。(2024年2月GPT4.0已大幅度增强)尚未实现的创新 基本理解全部的问题含义上下文的逻辑关联能力回答问题的增量创新和组合创新能力AI幻觉&AI想象扩展了异感世界的构建能力多模态能力学科能力的全维、全知、全量GPT4:一骑绝尘 进化迅速 ChatGPT 4.0 相较于其他AI工具有若干显著的改进和创新点,使其成为一个更加强大、灵活和用户友好的工具,达到目前其余AI工具难以企及的效果。 OpenAI宫斗:利益冲击 观念博弈OpenAI的“宫斗”最终以奥特曼的回归落幕,纵观全局既是权利之争也是观念博弈。uOpenAI联合创始人、前CEO山姆·奥特曼(Sam Altman)uOpenAI联合创始人、前总裁格雷格·布罗克曼 (Greg Brockman)uOpenAI联合创始人、首席科学家伊尔亚·苏茨克维(Ilya Sutskever)uOpenAI首席技术官米拉·穆拉蒂 (Mira Murati )u微软公司首席执行官萨提亚·纳德拉(Satya Nadella)uOpenAI临时首席执行官埃米特·谢尔(Emmett Shear)事件核心人物观念博弈“加速派”和“末日论派”在人类与AI的关系上的分歧。“加速派”:希望通过最高效、最具影响力的技术进步与突破来加速社会、经济或技术系统的变革过程,并把风险视为变革的催化剂。“末日论派”:更加审慎,认为一旦风险不可控,人工智能带来的巨大影响将毁灭人类社会。11月16日:苏茨克维通知奥特曼开会。11月17日:奥特曼、布罗克曼和OpenAI高级研究员相继离职。11月18日:投资者愤怒并要求奥特曼回归,董事会初步同意。11月19日:奥特曼等加入微软,近750名OpenAI员工威胁集体辞职,要求奥特曼回归。11月20日:奥特曼、布罗克曼与OpenAI董事会谈判,微软对奥特曼的回归持开放态度。11月21日:奥特曼与临时首席执行官进行谈判,公司希望在感恩节前解决领导层问题。内部冲突细节曝光。结局:奥特曼达成原则上协议,将重返OpenAI担任CEO,并组建新的董事会。 2024焦点:改善体验 多模突破五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频高性能推理硬件成本复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗,限制了AI系统与用户的的快速交互。AI幻觉率提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对于提供质量更高、更可信赖的生成内容至关重要。图像多语种文字生成目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中文),文生图技术中的文本处理技术有待优化。生成内容一致性保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的角色稳定),仍是AIGC 领域的重要挑战。文本生成视频文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。 u用户: 我昨天晚上去了一个音乐会,主要是为了看我最喜欢的乐队,但是开场乐队也非常棒。uAI: 听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌曲给你留下了深刻印象?u用户: 他们演奏了《深夜》,那是他们最新的单曲,非常激动人心。不过,我也很惊讶于开场乐队的表现。uAI: 是啊,《深夜》是一首很有力量的歌曲。关于开场乐队,你最喜欢他们的哪个部分?自注意力机制帮助AI关注到用户最关心的问题。u用户描述:“我想要一个穿着红色连衣裙的女人站在一个蓝色的湖边,背景是雪山。”该描述中有三个关键信息:红色连衣裙的女人、蓝色的湖、雪山背景。自注意力:动态聚焦 平衡权重uAI注意到用户提到了关键信息点“最喜欢的乐队”,机器人据此询问了更多的细节。uAI注意到用户对“开场乐队”的正面评价,机器人随后询问了更多关于开场乐队的信息。绘 画人 机 交 互 自 注 意 力 机 制 体 现对话u自注意力机制为每一个关键信息分配一个“注意力权重”。u生成图像时,根据权重来确定每个部分的细节和重要性。u例如,红色连衣裙的女人可能会被赋予较高的注意力权重,因此在图像中她的细节和颜色可能会被更加准确地渲染。u同样,蓝色的湖和雪山背景也会根据它们的注意力权重来确定其在图像中的表现。 世界模型:另一可能 规划推理自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题。世界模型才是正确答案。“世界模型” 指的是一个能够模拟和理解其周围环境的计算模型,试图通过感知输入(如视觉图像、声音等)来构建对环境的内部表示,并在此基础上做出决策或预测。【学习方法】:自监督学习,通过创建外部世界 的内部模型来学习【模型目标】:实现更高级的图像分析和理解, 理解外部世界的内部模型【核心技术】:图像联合嵌入非生成式预测架构, 学习表示的层次结构【应用领域】:图像分析和理解类任务Joint Embedding Predictive Architecture(JEPA)u提升自主学习能力:不再依赖于大量的手工标注数据,而是通过观察世界如何运作来自主学习,这会极大地提高机器学习系统的效率和适应性。u提升认知能力: 随着机器对复杂环境和抽象概念理解的加深,世界模型可以推动AI在需要高级认知能力的领域的应用,如法律分析、财务规划等。u提升决策和预测能力:世界模型可以在动态和不确定的环境中更好地预测未来的事件和结果,对于自动驾驶车辆的路径规划、金融市场分析等领域有重要意义。世界模型可能带来?——图灵奖得主 Yann LeCun 属性单模态多模态理论问题未来研究数据丰富性单一信息源多信息源高效地从单一信息源提取特征发现并利用跨模态间的隐含关系鲁棒性单一模态的数据质量可能会影响整体性能可以通过其他模态补偿某个模态的不足提高单一模态的抗干扰能力确保多模态数据的一致性和完整性决策准确性决策基于单一信息源可能受限综合各种信息决策更为准确优化单模态的决策策略权衡并结合不同模态的决策处理复杂性处理流程相对简单需要处理和融合各种模态的数据复杂性增加优化单一模态的处理流程有效融合和处理多模态数据信息冗余无法从其他模态中获取冗余信息可能从不同模态中获取重复冗余的信息消除单一信息源中的冗余识别和处理跨模态的信息冗余上下文理解上下文理解可能受限于单一信息源能够结合多种信息更好地理解上下文提高单一模态的上下文理解能力结合多模态信息进行深度上下文理解特征维度特征维度相对较低由于融合了多种信息源特征维度可能会更高从有限的特征中获取最多的信息管理和选择跨模态的高维特征可解释性由于只有一个信息源可能更易于解释多种信息源的融合可能会降低模型的可解释性增强单一模态的模型解释能力提高多模态模型的可解释性和透明度数据同步不需要考虑不同模态之间的同步问题需要确保不同模态的数据是同步的优化单一模态的数据处理速度确保不同模态数据的实时同步和对齐计算资源计算资源需求相对较低需要更多的计算资源处理和融合多种模态数据提高单模态的计算效率优化多模态的计算资源分配和管理单模多模:快速进步 模拟世界 多模融合:高维互联 信息贯通 多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:夏日的海滩日落图海底世界静态转为动态地标识别足球解说文本生成图像文本生成视频图像生成视频图像理解视频理解 多模关键:意图感知 自我演化u意图感知的模态选择:搭载“意图解析引擎”,能从多模态数据中抽取和理解用户或系统深层次的意图,并据此进行选择。u时间-空间-模态联合优化:开发全新的“多维度优化框架”,能够在多个维度上动态调整和优化资源,如减少时间延迟,选择最优数据来源地和最有用模态维度。u自我演化的交互模式:引入一种全新的“演化算法”,能够模拟人类学习和适应的过程,使HCI系统在识别用户行为模式的同时,还能发现隐藏的需求或习惯,并根据这些信息进行自我演化。关键技术难点u自适应模态选择与优化:在多模态系统中,不同模态(如图像、文本、声音等)的重要性可能因应用场景而异。自适应模态选择与优化,关注如何动态地评估和选择最有用的模态,以提高系统的整体性能。u环境动态性:环境和任务需求经常变化,实时评估和选择最优模态是一个复杂的问题。u高维度和复杂性:模态选择必须在多个维度(如准确性、计算成本、响应时间等)上进行优化,这增加了问题的复杂性。u实时多模态处理与决策:强调如何在实时或近实时环境中处理和分析多模态数据,并据此做出决策。u实时性与准确性的权衡:在有限的时间内进行复杂的多模态数据分析是一个挑战。u数据同步:在实时环境中,来自不同模态的数据需要准确地同步,以便进行有效的分析和决策。u人机交互的多模态适应:在人机交互(H