AI智能总结
2024年2月24日 计算机行业 Sora对算力需求影响几何? 核心观点: 分析师 研究助理胡天昊:(8610)80927637:hutianhao_yj@chinastock.com.cn Sora基 于DiT架 构 , 采 用Transformer替 换U-Net。Sora实 际 上 是 一 种 基于DiT(DiffusionTransformer,扩 散 变 换 器)的 模 型 搭 建。,同 时 采 用 了Diffusion与Transformer,是 一 种 用 于 扩 散 模 型 的 新 架 构。Sora受 到 大 语 言 模 型 的 启 发,用Transformer替 换 扩 散 模 型 中 的U-Net,通 过 将Transformer与Diffusion结 合成 为 一 种 基 于 扩 散 变 换 的 模 型DiT, 趋于 标 准Transformer架 构 ,同 时保 留 其可 扩 展 性。与 大 语 言 模 型 将 文 本 转 换 为 可 被 理 解 的token类 似,Sora将 视 频 转换 成 一 系 列Patch( 视 觉 编 码 块 ) 并 将 其 进 行 降 维 , 用Patch作 为 视 觉 图 像 统一 表 现 形 式 , 将 噪 声 通 过 去 噪 来 预 测 原 始 图 像 信 息 , 进 而 生 成 视 频 。 资料来源:wind,中国银河证券研究院 Sora实 现 跨 越 式 提 升,文 生 视 频 大 模 型 开 启 新 纪 元。Sora可 以 将Prompt转换 成 长 达60秒 视 频,相 对 于 此 前 文 生 视 频 大 模 型Runway、Pika、StableVideo等 提 升 几 个 级 别 。 同 时 在 视 频 分 辨 率 以 及 质 量 方 面 ,Sora可 以 生 成1080P清晰 度 视 频 , 并 且 能 够 相 对 完 整 实 现 对 世 界 及 物 体 运 动 规 律 理 解 及 模 拟 , 在 镜头 切 换 方 面 保 持 稳 定 性 。 此 外 ,Sora还 支 持 图 片 格 式 输 入 、 视 频 扩 展 、 视 频拼 接 等 , 是 文 生 视 频 领 域 突 破 性 技 术 变 革 。 投 资 建 议 :Sora是 人 工 智 能 发 展 进 程 中 的“里 程 碑”, 推 动AGI时 代 加 速 到来 , 算 力 需 求 将 持 续 爆 发 , 持 续 看 好 产 业 链 投 资 机 会 。 建 议 重 点 关 注 国 内 上市 公 司 :1、 国 内 多 模 态 大 模 型 : 科 大 讯 飞 、 海 康 威 视 、 大 华 股 份 ;2、 算 力基 础 设 施 : 工 业 富 联 、 中 科 曙 光 、 软 通 动 力 、 神 州 数 码 、 曙 光 数 创 、 润 泽 科技 、 拓 维 信 息 ;3、AI应 用 端 : 万 兴 科 技 、 金 山 办 公 、 超 图 软 件 、 彩 讯 股 份、拓 尔 思 、 卫 宁 健 康 、 嘉 和 美 康 等 。 风 险 提 示 :技 术 研 发 进 度 不 及 预 期 风 险 ; 供 应 链 风 险 ; 政 策 推 进 不 及 预 期 风险 ; 消 费 需 求 不 及 预 期 风 险 ; 行 业 竞 争 加 剧 风 险 等 。 目录 一、Sora大模型横空出世,AGI时代加速到来.............................................................................................................................3二、Sora基于DiT模型搭建,更适用文生视频领域....................................................................................................................4三、Sora算力分析框架详解,是GPT-3175B所需算力0.5倍.................................................................................................6四、Sora对算力需求将呈指数级增长.............................................................................................................................................7 一、Sora大模型横空出世,AGI时代加速到来 北 京 时 间2月16日 凌 晨,OpenAI发 布 了 首 个 文 生 视 频 大 模 型Sora,并 配 有48个 生 成 案 例 及 技 术报 告,能 够 通 过 自 然 语 言 指 令 生 成 长 达60秒 的 高 清 流 畅 视 频,在 生 成 视 频 长 度、清 晰 度、连 贯 性、多镜 头 切 换 方 面 都 有 显 著 提 升 。 资料来源:数字经济先锋号,中国银河证券研究院 Sora在 文 生 视 频 领 遥 遥 领 先 。Sora可 以 将 简 短 文 本 描 述 转 换 成 一 分 钟 流 畅 视 频 , 相 对 于Runway、Pika、StableVideo等 提 升 了 几 个 代 级 。1) 生 成 视 频 长 度 :Runway、Pika等 传 统 文 生 视 频 大 模 型 平 均时 长 在3-5秒 ,Runway用 户 可 以 最 多 延 长 视 频 长 度 至16秒 ,Sora相 对 传 统 视 频 生 成 工 具 提 升15-20倍 ;2) 视 频 质 量 显 著 提 升 : 生 成 ;3) 可 实 现 多 镜 头 切 换 : 可 以 理 解 和 模 拟 运 动 中 的 物 理 规 律 , 可 以实 现 复 杂 的 运 动 相 机 模 拟;4)视 频 连 贯 性 与 稳 定 性 更 好:在 建 模 能 力 上 表 现 更 好,可 以 依 赖 关 系 进 行建 模,能 初 步 理 解 及 模 拟 物 理 运 动 规 律;5)高 可 拓 展 性:支 持 多 种 数 据 格 式 输 入,具 备 实 现 文 生 视 频、图 生 视 频 、 向 前 或 向 后 视 频 扩 展 能 力 , 同 时 支 持 视 频 连 接 。 二、Sora基于DiT模型搭建,更适用文生视频领域 Sora实 际 上 是 一 种 基 于DiT(DiffusionTransformer,扩 散 变 换 器)的 模 型 搭 建。,同 时 采 用 了Diffusion与Transformer,是 一 种 用 于 扩 散 模 型 的 新 架 构。DiT尽 可 能趋于 标 准Transformer架 构 , 以 保 留 其 可 扩展 性 。 扩 散 模 型 广 泛 应 用 于 视 频 生 成 领 域,采 用 编 码 器-解 码 器 架 构。扩 散模 型 是 标 准 图 像 扩 散 架 构 的 自然 扩 展 , 它 可 以 从 图 像 和 视 频 数 据 中 进 行 联 合 训 练 , 可 以 减 少 小 批 量 梯 度 的 方 差 并 加 快 优 化速 度 , 迅速 取 代 了 基 于 生 成 对 抗 网 络 (GANs) 和 自 回 归 变 换 器 的 方 法 , 成 为 图 像 生 成 的 主 导 方 法 。 Sora受 到 大 语 言 模 型 的 启 发 , 用Transformer替 换 扩 散 模 型 中 的U-Net, 通 过 将Transformer与Diffusion结 合 成 为 一 种 基 于 扩 散 变 换 的 模 型DiT。 Sora将 视 频 降 维 成 时 空Patch作 为 视 频 数 据 对 模 型 进 行 训 练 。首 先 为 了 适 应 大 模 型 支 持 的 上 下 文长 度,降 低 处 理 复 杂 度,类 似ViT(VisionTransformer)将 图 像 进 行 处 理,将 图 像 进 行 降 维 分 解,这 样一 来 可 以 兼 容 所 有 的 数 据 素 材 ( 静 态 图 像 可 以 看 成 是 在 时 间t=0的 一 些 列Patch) 。 Sora采 用DiT模 型 , 通 过VAE将 视 频 压 缩 到LatentSpace( 潜 在 空 间 ) 中 , 然 后 将 这 种 表 现 形 式分 解 成 时 空Patch( 视 频 块 ) , 相 当 于 大 语 言 模 型 中 的token。 资料来源:OpenAI官网,中国银河证券研究院 Sora通 过 给 定 输 入 噪 声 及Prompt(文 本 提 示 信 息),训 练 出 的 模 型 来 预 测 原 始 的 不 带 噪 声 的 图 像,类 似 于 通 过 预 测 带 有 马 赛 克 的 原 始 图 像 , 让 模 型 去 学 习 去 除 马 赛 克 , 从 而 达 到 去 噪 声 的 目 的 。 在 生 成视 频 过 程 中 ,Sora通 过 对 噪 声 进 行 去 噪 , 来 预 测 原 始Patch, 最 后 将 图 片 转 化 为 视 频 。 资料来源:OpenAI官网,中国银河证券研究院 三、Sora算力分析框架拆解,单次训练算力需求或可达到GPT-3175B的2.7倍 通 常 在 计 算 大 语 言 模 型 算 力 需 求 通 常 与 参 数 量 及token数 量 成 正 比,而Sora大 模 型 中 可 以 将Patch类 比 与 大 语 言 模 型 中token, 本 报 告 基 于 大 语 言 模 型 计 算 算 力 需 求 方 法 框 架 及 以 下 三 大 假 设 , 对Sora算 力 需 求 进 行 分 析 测 算 。 假 设 一 :Sora训 练 数 据 集 为60亿 张 图 片 , 分 辨 率 为1980×1024;3500万 个 视 频 , 每 个 视 频 平 均时 长 为30秒 , 分 辨 率 为1980×1024, 帧 率 为60FPS。 根 据阿 里 联 合 浙 江 大 学、华 中 科 技 大 学 提 出 的 文 生 视 频 模型I2VGen-XL,研 究 人 员 收 集 了 大约3500万 单 镜 头 文 本-视 频 对 和60亿 文 本-图 像 对 来 优 化 模 型。 我 们 暂 且 保 守 假 设Sora训 练 数 据 集与I2VGen-XL相 同 , 同 时 二 维 向 量 空 间 图 片 表 示 为H×W×C( 其 中H为 长 度 ,W为 宽 度 ,C为RGB颜色 通 道 数 , 假 设C=3) 。 我 们 估 算Sora训 练 数 据 集 中 视 频 类 数 据Patch规 模=3500×10^4×60×30×3=6.3×10^10; 图 片 类数 据Patch规 模=60×10^8×1024×1980×3=1.22×10^16;训 练 数 据 集 总Patch=图 片 类 数 据Patch视 频类 数 据Patch=1.22×10^16。 假 设 二 :Sora中PatchSize为16×16, 将Patch转 化 为token。 根 据 谷 歌 论 文《ANIMAGEISWORTH16×16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》 ,Transformer的 输 入 是 一 个 序 列 , 对 于 一 张 图 像 来 说 如 果 把 每 个 像 素 点 当 作 一 个token,那 就 会 需 要 相 当 旁 大 的 计 算 量 , 该 文 则 将 图 像 划 分