AI智能总结
2026年01月20日14:35 关键词 多模态AI视频大模型放量AI应用自动驾驶机器人世界模型谷歌GPT财税编程客服短剧慢剧动态理解动态生成扩散模型物理规律一致性 全文摘要 随着人工智能领域的发展,2026年预计多模态大模型将引领技术迭代和变化,强调AI应用竞争焦点转向多模态。多模态技术加速发展,促进AI应用繁荣,尤其在AI视频制作、自动驾驶及机器人领域展现巨大潜力。大模型正从文本向多模态快速演进,开始大规模应用于生产环境,特别是在AI视频生产中。 AI应用的胜负手-多模态,从AI视频到机器人-20260119_导读 2026年01月20日14:35 关键词 多模态AI视频大模型放量AI应用自动驾驶机器人世界模型谷歌GPT财税编程客服短剧慢剧动态理解动态生成扩散模型物理规律一致性 全文摘要 随着人工智能领域的发展,2026年预计多模态大模型将引领技术迭代和变化,强调AI应用竞争焦点转向多模态。多模态技术加速发展,促进AI应用繁荣,尤其在AI视频制作、自动驾驶及机器人领域展现巨大潜力。大模型正从文本向多模态快速演进,开始大规模应用于生产环境,特别是在AI视频生产中。世界模型未来将对自动驾驶和机器人领域产生深远影响。多模态技术的成熟亦为投资领域带来新机遇,包括AI视频内容生产、平台、AI工具以及算力和存储等。 章节速览 00:00 2026年多模态大模型迭代与AI应用展望 对话强调2026年多模态大模型在AI视频和自动驾驶等领域的迭代与应用,认为多模态技术加速发展将极大促进AI应用的放量,特别是AI视频和财税领域,预计AI视频空间更大,且已开始规模性落地,同时机器人和自动驾驶领域也迎来新阶段,建议聚焦多模态技术作为AI应用的核心方向。 03:42大模型动态理解与生成技术趋势 对话探讨了大模型在动态理解与生成技术上的变化趋势,特别是多模态理解和生成技术的发展。从早期的图片理解到原生多模态,技术进步体现在机器人和智能硬件的应用中,但仍面临模型智力下降和因果关系理解不足的挑战。未来,技术有望在动态数据处理和应用领域取得突破,为端和硬件带来更好的机会。 08:59 AI理解与生成技术的演进 讨论了AI理解与生成技术的发展历程,从早期理解性准确率不足到生成模型如扩散模型和DIT结构的引入,实现了从图片到视频生成的精细化。强调了transformer与扩散模型结合带来的模型理解能力提升,以及对生成内容原创性和遵循指令能力的增强。 13:15视频生成模型技术进展与未来趋势 讨论了视频生成模型在视觉质量、物理合理性、人物一致性等方面的显著进步,以及通过提升数据质量和优化生成模型实现的物理规律学习。指出模型指令执行能力的增强和理解生成一体化的发展方向,强调了这些变化对降低生成成本和提升用户体验的重要性。 17:36世界模型与多模态理解模型的差异及其应用前景 世界模型作为科研阶段的新范式,通过直接从像素点或动态内容中学习物理原理,与多模态理解模型在知识学习方式上存在显著差异。它不仅提升了大数据机器人的收敛率,还优化了对物理世界的理解。随着DIT结构的应用,模型参数的扩展带来了视觉质量的飞跃,预示着2026年生成技术将引领明确的产业趋势,尤其是在应用层面,国内进展更为显著。 22:09多模态大模型进展与AI视频市场展望 讨论了多模态大模型在过去半年的海外进展,预测未来一年将向世界模型演进,视频生成质量将大幅提升,成本快速下降,AI视频及短剧市场需求旺盛,市场预计迎来倍数增长,投资机会主要在IT方和平台AI工具相关玩家。 27:28 AI视频与机器人自动驾驶:投资机会分析 对话深入探讨了AI视频领域的投资潜力,特别是关注兆驰股份的风行平台、昆仑万维的sky real工具,以及富国集团、万兴科技等企业。此外,机器人和自动驾驶技术的进展,尤其是世界模型的开发,预示着未来主题性投资机会。强调算力与存储行业也将从中受益。 30:59 2026年AI应用趋势:多模态技术驱动的三大投资机会 汇报聚焦2026年AI应用趋势,重点分析多模态技术成熟带来的机遇,包括AI视频、自动驾驶、机器人及算力存储领域的投资机会,推荐关注兆驰、风行、昆仑外围等标的,强调多模态技术对行业发展的推动作用。 发言总结 发言人2 重点概述了大模型领域,特别是动态理解与生成方面的发展。他提到,自年初以来,预测到2025年有五大趋势,其中两个显著趋势与动漫相关:世界模型和动态理解与动态生成。特别指出,从23-24年开始,多模态理解和生成技术已取得进展,强调了从大一统到通用方法的转变,以及在理解与生成过程中出现的技术创新。他特别提到了扩散模型在生成中的应用,以及原生多模态和动态理解在技术发展中的关键作用。此外,他还讨论了视频生成模型的变化,从早期实验到当前的高质量输出,以及未来可能的世界模型与多模态模型结合的创新方向。他强调了理解和生成一体化的趋势,并指出中国在该领域的应用可能处于领先地位。 发言人1 他着重强调了多模态大模型技术加速迭代对AI应用领域的深远影响,特别是在AI视频、自动驾驶和机器人领域展现出的巨大潜力。预计到2026年,AI应用将进入2.0阶段,重点放在最具放量潜力的场景和标的上。多模态大模型不仅促进了AI视频生成的规模化应用,还对机器人和自动驾驶技术的发展起到了关键性推动作用。他指出,国产多模态大模型正在快速追赶,有望在技术迭代中占据重要位置,强调了AI视频、机器人和自动驾驶领域的投资机会,并指出算力和存储需求将显著增加。此外,他还特别提到了Mini Max、快手等值得关注的公司和标的,为投资者提供了指导。 要点回顾 2026年大模型在多模态方面会有哪些迭代和变化? 发言人1:2026年大模型在多模态领域的迭代将带来显著变化,国产多模态大模型有可能出现重大突破。多模态大模型技术加速迭代,在AI视频、短剧等应用领域以及自动驾驶到机器人的方向上,将有较大受益。尤其是多模态大模型与世界模型的发展紧密相关,这将推动相关应用进入新的发展阶段。 当前计算机和AI应用行情的发展阶段是什么?哪些场景有望实现放量增长? 发言人1:目前整个计算机和AI应用的行情正进入2.0阶段,核心在于聚焦到能实现大规模放量的核心应用场景及其中最具有潜力的标的。经过产业调研,我们发现AI财税(如税务)和多模态(包括AI视频等)是近期能实现显著放量的场景。相较于AI财税,多模态AI视频的应用空间更大,并且具有全球产业链优势。 为什么将多模态列为今年AI应用的胜负手? 发言人1:多模态被列为今年AI应用胜负手的主要原因是大模型正快速从文本向多模态演进,且过去半年多模态领域发生了重大变化,如谷歌和GPT等公司发布的多模态产品。特别是在AI视频方面,其生产环境已开始规模化落地,AI慢剧和短剧呈现爆发式增长,预计今年按倍数增长。 多模态理解和生成的发展历程是怎样的? 发言人2:多模态理解和生成最早可追溯至2023年至2024年期间。早期的技术路线是一大统的方式,而现在通用的做法是理解与生成分离,理解部分利用多模态数据在训练过程中起到关键作用,而生成部分则更多采用扩散模型,并开始将理解模块与生成模型串联起来进行混合训练。 动态理解方面有哪些进展和挑战? 发言人2:动态理解方面,自2023年开始逐步发展,其中原生多模态理解在谷歌等公司提出并应用于机器人和智能 硬件领域。虽然当前模型在动态理解上仍面临丢失细节、理解水平有限等问题,但随着技术进步,部分模型已能保持不降低智能水平。然而,对于因果关系的理解仍需进一步提高,未来动态理解技术有望在端硬件和机器人等领域取得更好应用机会。 动态理解模型的准确率是否达到了与文字理解相当的程度? 发言人2:动态理解模型的准确率目前还没有达到像文字理解那样成熟的状态,尤其是在理解复杂场景和精细化表达方面,与文字相比还有较大差距。 早期尝试的基于像素或像素块生成图像的方法存在哪些局限性? 发言人2:早期尝试的基于像素或像素块生成图像的方法存在生成内容不够精致、无法处理物体不同角度下的细节差异等问题,主要原因是像素点和像素块之间的关联性不够强。 扩散模型在哪些方面取得了显著进步,尤其是在视频生成领域? 发言人2:扩散模型在视频生成领域的重大变化发生在24年初,当时出现的DIT结构结合了former结构,使得模型参数量可以大幅度增加,从而极大地提升了模型的技术质感、细节处理能力和整体模型的细节生成能力。 图片生成模型是如何随时间演进并实现理解生成一体化的? 发言人2:从25年开始,图片生成模型逐渐呈现出理解与生成的一体化趋势。以高频p mage和C4.5等模型为例,它们在模型结构上融合了transformer和扩散模型,前端不仅是一个对齐模型,更是具备理解能力的产品方法。这样的设计使得模型能更好地理解用户的意图,生成更原创、符合通识知识的内容,并降低修改率、增强指令遵循能力。 视频生成模型在物理合理性、画面一致性和指令遵循能力等方面有何改进? 发言人2:视频生成模型在过去两年里,在物理一致性和画面连续性等方面取得了显著进步,通过提升数据质量和合成具有物理规律的数据,模型在遵循物理规律如重力感等方面表现更好,减少了不合逻辑的画面出现。此外,音画质量的融合也提高了视频的视觉一致性。随着指令执行能力的增强,预计未来视频生成模型将朝着理解生成一体化的方向发展,扩散模型前端将引入更强大的理解单元,进一步提升用户的理解能力和可控性。 视频生成模型在近期有哪些重大变化? 发言人2:近期视频生成模型的一个重大变化是抽卡率的提升和生成速度的加快,这使得整个生成过程更为高效,同时降低了成本。此外,这些模型在视觉质量、连贯性、物理特性和光影光流等方面也有了显著改善,让视频看起来更自然、不具有明显的AI感。 世界模型与多模态理解模型有何不同? 发言人2:世界模型目前仍处于科研或实验室阶段,它不依赖于文字向量空间去学习知识,而是直接从多模态内容(如像素点或动态内容)中学习物理原理。例如,通过像素点式的学习规律,世界模型可以理解到苹果总是往下掉的常识,而无需明确知道动力定律。 世界模型对大数据机器人和物理理解有何影响? 发言人2:世界模型对大数据机器人有积极影响,其收敛率可能优于传统的原生动态模型,并且在效果和对物理世界的理解上更为出色。如果世界模型范式最终确立,它将彻底改变多模态理解模型的学习方式,从动态本身学习所有知识,而非仅从文字向量空间中学习。 未来一年内多模态大模型会有哪些发展趋势? 发言人1:未来一年,多模态大模型在申请处理上将做得更好,画质相关方面会有进一步提升,预计半年后难以区分视频是否为AI生成。此外,多模态大模型将向世界模型演进,对机器人、自动驾驶等场景产生积极影响,同时生成的一致性问题将得到较大改善。最后,国产大模型如MiniMax等将在今年持续迭代,有望在第二季度全面跟上谷歌和OpenAI的步伐。 AI视频应用目前的发展阶段如何? 发言人1:AI视频应用已经基本解决了反馈中的问题,并且进入到了每分钟成本快速下降的阶段。高品质大作的画质在1080P以上成本已降至千元级别,而更高质量的作品则在两三千元级别。我们认为成本端还有进一步下探的空间。 C端对于AI短期慢剧的需求情况怎样? 发言人1:C端对于AI短期慢剧的需求非常大,类似游戏的投入程度。近期发现一款名为“红果短剧红包短信”的APP,在流量端占比提升非常快,预计苹果、腾讯、百度和阿里等巨头在春节前后也会在这块AI短期慢剧上有更大发力。 投资AI视频市场的重点方向有哪些? 发言人1:投资机会主要在于两个层面:一是IT方,特别是平台和AI工具相关玩家;二是IP方,尤其是互联网传媒类企业和内容制作创业公司。推荐关注兆驰股份(风行)、昆仑万维、富士集团、万兴科技等标的。 AI视频技术进步如何影响相关公司和投资机会? 发言人1:以MiniMax为例,其全模态大模型能力在国产大模型追赶中表现突出,其迭代版本的大升级