您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京大学]:AI视频生成技术原理与行业应用-北京大学-202512 - 发现报告

AI视频生成技术原理与行业应用-北京大学-202512

AI视频生成技术原理与行业应用-北京大学-202512

AI视频生成技术原理与行业应用 AI肖睿团队(段永华、张惠军)2025年11月25日 •北大青鸟人工智能研究院•北大计算机学院元宇宙技术研究所•北大教育学院学习科学实验室 摘要 一、本讲座面向视觉内容创作者、AI技术爱好者、创意从业人员,学术研究人员、相关教育工作者和学生,旨在全面解析AI视频生成技术的技术原理与行业应用。我们聚焦前沿模型架构、厂商发展现状与行业应用案例,力求兼顾技术深度与实用价值。报告深入分析各主流厂商技术能力与产品定位,剖析不同行业的应用场景与工作流程。为创作者、决策者与开发者提供从技术理解到商业落地的系统指南,助力把握创新机遇与实施路径。 二、讲座涵盖以下几个模块: 1.AI视频概览:介绍AI和AI视频的基本概念、分类、行业发展现状,建立对这一技术领域的整体认识。 2.技术原理与架构:详细解析AI视频从训练到生成的完整过程、基础技术架构、训练数据,以及从基础架构到商业模型的演进路径。3.能力发展与突破:分析主流厂商的技术能力、AI视频技术的评估标准,以及市场上主要的AI视频工具和模型的比较。4.行业应用案例与价值:全面展示AI视频在影视娱乐、短视频营销、教育培训、医疗健康等多个行业的具体应用案例和价值。5.工具/平台使用推荐:可灵、Runway、即梦等10款国内外主流AI视频平台,提供基于应用场景、易用性分级及成本梯度的多维选型建议。 三、在技术学习的道路上,优质学习资源至关重要。AI基本概念和原理部分,推荐大家参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。此外,欢迎加入ai.kgc.cn社区,以及“AI肖睿团队”的视频号和微信号,与志同道合的AI爱好者交流经验、分享心得。 AI视频生成技术原理与行业应用 目录 01A I视 频 概 览02技 术 原 理 与 架 构03能 力 发 展 与 突 破04行 业 应 用 案 例 与 价 值05工 具 选 择 推 荐 A I视 频 概 览 PART 01PART 01 1.认识AI——AI · AGI ·基于学习的AI · GenAI · AIGC 2.认识AI视频——定义·任务分类·发展·主流工具 认识AI,从厘清“名词”开始 1.狭义AI与通用AI 按智能水平/范围划分,AI分为狭义AI和通用AI,狭义AI是当今最常见的AI类型,专注于特定任务;而通用AI,也称为AGI,可以像人类一样思考、学习和运用知识。 通用AI 狭义AI ⚫通常被称为弱人工智能或特定人工智能⚫不具有意识或高级认知功能⚫仅限于解决特定、熟悉的任务⚫价值:提高效率、提高准确性、降低成本 ⚫模仿人类智能,被称为强人工智能⚫假设具备意识和认知推理能力⚫能解决各种不熟悉的任务⚫尚未在实践中实现 2.基于规则的AI与基于学习的AI 在构建方式和范式上,早期的AI范式是基于规则的AI,又称为“符号AI(symbolic AI)”,依赖于由人类专家预先编写的显式逻辑规则进行决策;而基于学习的AI则是通过分析海量数据来自动学习和归纳模式,是现代AI的主流范式。 ⚫遵循预定义的规则和逻辑操作 ⚫决策基于人类专家提供的明确指示进行 ⚫易于理解和控制,但缺乏灵活性 ⚫无法适应或从新数据或经验中学习 基于规则的AI 例如:专家系统、传统聊天机器人 ⚫从数据中学习⚫利用算法识别模式并做出决策⚫灵活,可随着时间改进,但需要大量数据⚫能够处理复杂、不断变化的情况 基于学习的AI 例如:图像识别、自然语言处理、预测分析 3.监督学习与无监督学习 按学习和训练方式,分为监督学习和无监督学习。监督学习是利用带有明确标签的“正确答案”数据进行训练,而无监督学习则是在没有标签的数据中自主发现其内在的结构与模式。 监督学习:从带有标签的训练数据中学习 算法通过分析已知的输入-输出对来学习映射函数,目标是对新的、未见过的输入数据进行准确预测。 无监督学习:在未标记的数据中发现模式 系统试图从数据的内在结构中发现模式或规律,而不依赖于预先定义的输出标签。 4.决策式AI VS生成式AI 在基于学习的AI范式下,按AI要完成的核心任务分为决策式AI与生成式AI,决策式AI专注于对输入数据进行识别、判断和预测;生成式AI的目标是根据学习到的模式创造和生成全新的、原创的内容。 决策式AI:专注于分析现有数据,以对未来事件或趋势做出预测,常被应用于金融、医疗保健和营销等领域。决策式AI对于需要进行预测的决策过程至关重要。 生成式AI:能够根据所接受的训练数据生成新的内容。它可以生成图像、文本、音乐等,被广泛应用于创意产业、内容生成,甚至是为各种应用创建合成数据。 例如:复旦大学附属眼耳鼻喉科医院推出近视儿童AI生成式病历,医生只需专注于与患者的沟通,系统后台即可完成语音识别、关键词抓取、语义理解及病历生成的全过程。 例如,一个决策式AI模型可能会分析历史销售数据以预测未来销售,或者它可能会使用患者数据来预测出现某些医疗状况的可能性。 AIGC—生成式AI在内容创作领域的多模态发展 AIGC(AI Generated Content),指人工智能生成内容,广泛应用于文本生成、音频生成、图像生成、视频生成及跨模态生成等。 「AI相关概念」小结 1.通用AI(AGI)是拥有与人类相当的全面智慧的终极理想,目前尚未实现。今天所讨论和使用的一切AI,都属于狭义AI的范畴,它们是为解决特定任务而设计的工具。 2.构建AI的方法,早期依赖基于规则的AI,像一本写好的“说明书”;而现代AI的主流是基于学习的AI,它能像学生一样从海量数据中自主学习规律,是后续高级功能的基础。 3.基于学习的AI根据其任务目标,又可分为两大核心能力。决策式AI像在做“判断题”,负责识别和分类(如人脸识别);而生成式AI则像在做“创作题”,负责创造全新的原创内容(如写文章、绘画)。 4.生成式AI创造生成内容简称为AIGC,文本生成、图像生成、视频生成、音频生成等都是AIGC在不同媒介上的具体表现形式。 AI视频生成是基于学习的AI,属于生成式AI范畴,而其产出的动态影像内容,是目前AIGC中技术最复杂、发展最迅速的分支之一。本报告将聚焦于此,深入探讨AI视频技术的核心原理、当前进展、行业应用与与实践以及未来前景展望。 A I视 频 概 览 PART 01 1.认识AI——AI · AGI ·基于学习的AI · GenAI · AIGC 2.认识AI视频——定义·任务分类·发展·主流工具 AI视频生成—重塑视频内容创作范式 2024年初,OpenAI发布的Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力。随后,多个模型相继问世,展现相近或更高的技术水平。AI视频正从实验性"技术炫技"阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具。尽管在可控性、逻辑一致性和成本方面仍存挑战,但行业变革的临界点已清晰可见。 RunwayML技术应用于电影《瞬息全宇宙》特效 AI视频的概念及任务分类 AI视频指利用人工智能(特别是机器学习和计算机视觉)来生成、编辑、分析或增强视频内容。 重点讨论 视频生成 视频理解 视频编辑 在现有视频的基础上,通过AI进行内容、风格、时序或属性的修改与提升。 让AI模仿人类的视觉和认知能力,解析、描述和推理视频内容。 从非视频模态(如文本、图像、音频)信息中,从零开始或大幅度创造全新的视频序列。 •视频高层语义分析(视频分类标签、行为识别、事件检测、场景分割)•视频内容摘要与交互(关键内容摘要生成、自动字幕/描述生成、视频问答交互、内容检索)•视频时空感知(目标检测与追踪、人体姿态估计与追踪)•多模态理解(视觉-语言对齐、音视频事件定位、跨模态内容检索) •内容修改(视频修复/填充、视频中物体替换、视频画面扩展)•时序编辑(视频插帧实现流畅慢动作、视频变速/重定时)•视觉属性编辑(风格化转换、重着色/调色、光照重置、特效添加)•视觉质量增强(超分辨率提升、去噪/去模糊处理、视频防抖优化 •基于文本生成视频 •基于图像生成视频(单图动画化、多图序列故事化转换)•基于音频生成视频(音景视觉化、音乐视频自动生成)•3D/世界模型生成(文本/图像到3D场景、3D场景动画生成、2D到3D视频转换)•数字人生成(文本驱动表情/动作、对口型、克隆、形象定制) AI视频生成三种典型方式 AI视频生成的历史演进 当前主流的AI视频生成平台与工具 通用大模型平台的视频生成功能 除了垂直视频生成平台,越来越多的通用大模型已通过集成顶尖的视频模型,获得了非常强大的视频生成能力。 「AI视频概览」要点总结 明晰AI视频的“出身”与“定位” •厘清了AI的核心概念谱系,明确了AI视频生成技术是当前狭义AI (ANI)范畴下,基于学习的AI中的一个分支。•AI视频功能上属于生成式AI (Generative AI),其产出物是AIGC的重要组成部分,代表了AI从“分析预测”到“创造生成”的关键跃迁。这一认知是理解其技术价值与潜力的基石。 掌握AI视频的“功能”与“形态” •深入理解AI视频的内核,明晰其本质——算法与数据驱动的动态影像创造。•AI视频不仅仅是生成视频,其有三大核心任务分类(视频生成、视频编辑、视频理解),本报告侧重AI视频生成。•AI视频生成有三种典型方式——文生视频、图生视频、视频到视频。 洞悉AI视频的“历程”与“格局” •从GANs理论提出,到扩散模型的广泛应用,再到以Sora为代表的DiT模型出现,AI视频技术已迈入"AI视频元年"。•目前国内外头部科技公司纷纷布局,OpenAI的Sora、快手的可灵AI、Runway的Gen-3等产品各具特色,能力从秒级短片扩展到分钟级高清视频,能力不断迭代增强,逐步进入产品商业化时代 AI视频技术原理与架构 PART 02 1.基础技术范式与模型架构——基础范式·模型架构·演进路径 2.从基础生成架构到商业模型 3.AI视频生成的燃料:训练数据 从模型训练到创意实现,AI视频的生成之路 构建模型的“素材库” 获取原始数据,包括文本、图像或视频片段,构建规模庞大、内容多样、反映真实物理规律的数据集。 什么是“模型”? “模型”是一个计算机程序或数字文件,它是一个为了完成特定智能任务(如识别图像、翻译语言)而被创造出来的、基于数据和算法的系统。它通过在海量数据集上进行“训练”,学会了识别特定模式,并做出预测或生成新内容的能力。 特点: 1.是“学习”而非“编程”出来的2.由算法和数据共同构成,数据是模型的“原料”3.功能是“输入到输出”的映射4.目标是预测和决策,生成模型属于预测 视频生成技术范式演进路径 2016-2020年GAN/VAE生成阶段 2016年前早期发展 2020-至今自回归模型及扩散模型生成阶段 •在生成质量上优于GAN,逐步应用于高质量视频生成。•通过逐步去噪生成视频帧,具有稳定性强、画质高的特点。 •模型参数量小,较轻便,所以更加擅长对单个或多个对象类进行建模。 •通过图像拼接或简单变换来模拟视频效果。 Sora:Sora 2即梦AI:Seedance 1.0Luma Al:Ray 3Runway:Gen-4Vidu:Vidu Q2可灵AI:kLing 2.5Pika Labs:Pika 2.5PixVerse:Model V5Meta:Movie Gen海螺AI:Hailuo 2.3Google:Veo 3.1通义万相:WAN 2.5腾讯混元:HunyuanVideo 为什么是Diffusion?—扩散模型的原理性优势 原理:通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步