AI智能总结
从GPT到Sora:AIGC与传媒变革 王鹏腾讯研究院资深专家 ⽬录 01 Sora 的能与不能02 ⾏业的危与机03 变与不变 Sora 的能与不能 知识学习:token 与 patches,统⼀的信息压缩思想 token:⽂本中的最⼩有意义的单位,⽤向量存储。 Transformer:是⼀种深度学习模型,⽤于处理序列数据。⽤⼀套逻辑从⽂字、图像,到视频、声⾳和patch:Sora使用视觉补丁(patches)作为其表示方式。 3D,实现了对世界运⾏规律的学习。ChatGPT:⼀个基于Transfomer架构的⼤型语⾔模型,⽤于⽣成连贯的⽂本回复。它通过学习⼤量⽂ 本数据,考虑语⾔结构和语义,并在回复时综合上下⽂信息。Sora:通过时空patch实现了图像和视频数据压缩,并基于Transformer进⾏多模态计算。 知识学习:通识知识训练与⾏业知识获取 与⼈类学习的⽅式类似,⼤模型也需要从基础教育、通识教育到专业学习。通过对海量知识的压缩与训练,获得常识性知识; ⾏业知识往往掌握在⾏业机构和企业⼿中,需要⼴泛合作,获取更专业的特定能⼒。 ⼯作辅助:翻译、编程、采编、摘要…… 灵感创作:智能的规模涌现 1、⽂字:从猜字填空到创意写作 新闻智能标题 通过⾃然语⾔处理⽅式,按照新闻语⾔风格,智能化地概括⽂本内容,可以⽤于智能标题的拟定。 好⽔、好⼟产好粮。为了保护好⾚⽔河的⽣态,仁怀近年来下⼤⼒⽓实现了⼯业核⼼区废⽔收集处理全覆盖,城镇⽣活污⽔处理率达95%,⾚⽔和⽔质如今常年稳定在地表⼆类以上。守牢⽣态底线,在⾼质量发展中保障和发展民⽣。党的18⼤以来,在⽯漠化 ⽂本补全:短语补全、⽹络例句、风格化⽂本AI续写(科幻、军事、武侠、职场):协助创作风格鲜明、妙趣横⽣的新内容。 严重的⼭区,仁怀持续加⼤基础设施建设投⼊和退耕还林⼒度,帮助当地群众打造农旅⼀体的⽣态观光业,以创建省级⽣态乡镇13个,市级⽣态村寨127个。仁怀还下决⼼对城区最⼤的垃圾填埋场进⾏彻底改造和⽣态修复,为群众打造出⼀个鸟语花⾹的⽣态公园。近五年,仁怀绿化造林30余万亩,森林覆盖率达56.35%,城镇新增就业36524⼈,乡村两级医疗卫⽣机构规范化建设全覆盖,公通车总⾥程达3961公⾥…… •智能标题:仁怀:坚守⽣态底线提升民⽣福祉•原始标题:⾛进县城看发展 贵州仁怀:坚持绿⾊发展提升民⽣福祉 灵感创作:智能的规模涌现 2、图像:扩散模型,设计应⽤ Diffusion扩散模型:就像⼀滴墨⽔落⼊⼀杯⽔中。墨⽔会在⽔中扩散。⼏分钟后,它会在⽔中随机分布。正向扩散过程会逐步向图像添加噪声,最终让图像丧失原有的特征,⽆法分辨其原始类别,就像墨⽔在⽔中扩散⼀样。从⼀个嘈杂⽆意义的图像开始,通过输⼊⽂本条件,逆向扩散可以恢复⼀张图像。 灵感创作:智能的规模涌现 3、视频:Sora的⾰命性进步 ⽂字描述➡⼀分钟的⾼清视频。 ⼀个时髦的⼥⼈⾛在东京的街道上,到处都是温暖的霓虹灯和⽣动的城市标志。她穿着⿊⾊⽪夹克、红⾊⻓裙、⿊⾊靴⼦,拿着⼀个⿊⾊钱包。她戴着太阳镜,涂着红⾊的⼝红。她⾛起路来⾃信⽽随意。街道是潮湿和反光的,创造了⼀个彩⾊灯光的镜⼦效果。许多⾏⼈⾛来⾛去。 ⼏只巨⼤的⻓⽑猛犸象穿过⼀⽚⽩雪覆盖的草地,它们⻓⻓的⽑茸茸的⽪⽑在⻛中轻拂,远处⽩雪覆盖的树⽊和戏剧性的雪⼭,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视⻆是惊⼈的,捕捉到了美丽的摄影,景深的⼤型⽑茸茸的哺乳动物。 灵感创作:智能的规模涌现 3、视频:视频⽣成的技术背景Pika 许多先前的⼯作已经研究了使⽤各种⽅法对视频数据进⾏⽣成建模,包括RNN循环神经⽹络、GAN⽣成对抗⽹络,Transfomer和Diffusion模型。这些作品通常关注⼀⼩类视觉数据、较短的视频或固定⼤⼩的视频。Sora是视觉数据的通⽤模型,它可以⽣成不同时⻓、⻓宽⽐和分辨率的视频和图像,最多可达⼀分钟的⾼清视频。 灵感创作:智能的规模涌现 3、视频:理解语意,多种输⼊ ⾃然语⾔输⼊⽤GPT4为训练语料标注⽂本⾃动扩展提示词 灵感创作:智能的规模涌现 3、视频:编辑扩展,⽆限⾃由 世界模型:模拟预测万物运⾏ OpenAI认为,Sora不仅是⼀个视频⽣成器,更⼤的意义是⼀个通向世界模型和AGI的触⻆和可⾏路径。与⼈对世界的认知过程相似,Sora通过视频学习,建⽴了对世界运⾏规律的认知。 世界模型:实现 GPT 时刻,但尚存不⾜ (1)对世界的物理规则的理解还不完美,不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。(2)长视频生成时容易出现不连贯或者物体凭空出现的现象。 Prompt: an alien blending in naturally with new york city, paranoiathriller style, 35mm film提示词:与纽约市⾃然融为⼀体的外星⼈,偏执惊悚⻛格,35毫⽶胶⽚ Prompt: fly through tour of a museum with many paintings andsculptures and beautiful works of art in all styles提示词:⻜越博物馆之旅,那⾥有许多绘画和雕塑以及各种⻛格的精美艺术品 创意策划 内容生产 传播交互 广告营销 ⾏业的危与机 行业拓展 由于专业的承载物与表达⽅式都与新技术完全匹配,媒体⾏业会受到最直接的影响。 安全监管 创意策划:激发创意,辅助表达 基于AIGC工具的插画人物绘制过程——天美工作室群 在插画绘制过程中,美术人员首先会根据线稿图生成蒙版图和语义图,然后结合ControlNet去精细化的控制生成细节,最终通过多次迭代后,再进行风格迁移得到满意的插画图。原本一副插画需要1名美术人员5天完成,借助AIGC工具后,可以实现制作效率大幅提升,制作周期缩短至1天。 内容⽣产:⼯具迭代,降低门槛,提⾼效率 Sora将率先在短视频、⼴告、互动娱乐、影视制作和媒体等⾏业中得到应⽤。在这些领域,利⽤Sora的多模态⼤模型能⼒,可以辅助内容⾏业的⼯作者更⾼效地创作视频,不仅加快了⽣产速度,还提⾼了产出数量,并为⽤户带来前所未有的视觉体验。这将助⼒企业实现成本降低、效率提升,并进⼀步优化⽤户体验。 好莱坞梦工厂创始人Jeffrey Katzenberg在近期预测,“生成式AI将使动画电影的成本,在未来3年内降低90%,该技术将给媒体和娱乐行业带来彻底的颠覆”。(近十年的动画电影制作成本约为1.3亿-1.75亿美.元/部,平均成本为1.47亿美元/部) 更贴近人的交互方式理解⼈类语⾔理解空间/理解世界 识别⼈类语⾳、动作 Sora可以⽣成3维⼀致的空间场景,甚⾄可以直接⽣成Minecraft游戏场景并控制中的玩家,与XR设备配合,将加速⼈们的⽇常体验向元宇宙迁移。Midjourney首席执行官DaVid Holz判断道,“未来可能实现以每秒30帧的高分辨率实时生成内容,并且到2030年,可能会实现整个视频游戏的生成。”Sora的到来将⼤⼤提前这⼀进程。 ⼴告营销:从千⼈⼀⾯,到⼀品千⾯ 市场营销是最大的场景 ⾏业拓展:沉浸互动的未来教育 符号学习 •沉浸体验:⾝临其境教学,沉浸式⾃由交互。⽆论是⾝临外星环境、亲历历史场景,还是深⼊微观世界甚⾄⽣物体内,都是可以轻易实现的。提⾼了学习的趣味性和参与度,使复杂或抽象的概念更容易理解和记忆。•游戏化学习:Sora已经表现出其构建游戏场景的能⼒,可以将游戏化元素融⼊学习中,提⾼学⽣的参与度和学习动⼒。通过奖励系统、进度追踪和互动挑战,学习过程可以变得更加有趣和吸引⼈。这是沉浸体验的进⼀步升级。•创意驱动:使学⽣能够通过语⾔交互快速⽣成和修改图像、视频或建筑设计,从⽽更多地专注于培养想象⼒、故事讲述能⼒和复杂系统的理解。这种⽅式可以极⼤地促进创造性思维的发展。 安全监管:风险与挑战 •AI作为⽣产⽅式变⾰与⽣产⼯具升级的代表,趋势⽆法抵挡;•模型及其参数,富含意识形态信息,从语料投放开始就带有价值倾向,内容输出是价值倾向的表达;•从⽂、图到视频,逐渐升维,信息内容隐蔽性更强,监管难度递增;•内容⽣产⻔槛降低,受众⾯⼤,监管难度增强。 不同形态视频受到的差异化影响 •不同形态视频受AIGC影响进程不同;•⾼质量、⼯业化的⻓视频领域,会将AI作为⽣产⼯具,提供素材、压缩产业链;新闻等⾼度准确性场景,仅会少量应⽤;•短视频正在进⼊AI原⽣阶段,可能⼤量实现UGC+AIGC; 重塑后的短视频产业链 •AIGC视频生成技术将会打破短视频的原有产业链,大幅度压缩简化生产制作流程和角色分工,实现一键生成的all in one原生模式。新的视频平台范式将具有无序、沉浸,实时、互动、去中⼼化的AI原生特征。•在AIGC对视频产业链的技术变革下,有望孵化出新一代的集短视频制作、分发、变现为一体的全新形态的视频平台。•新型的制播一体的AI原生内容平台应该是融合AI创意工具+AI原生视频工具+变现平台三大环节的AI原生短视频平台。 重塑后的长视频产业链 •重塑后的视频产业链将整合简化为三大环节:创意生成—视频生成—宣发播映;•随着制作环节难度下降,好故事、好脚本等产业链上游的创意环节将成为视频产业的核心竞争力;•原有产业链的投资环节主要针对内容制造环节,未来文娱和技术投资将走向融合。 变与不变03 不变? 变! 不变|内容:稀缺的真实性 1、资讯:绝对真实,识别造假 超级视频⼯⼚,基于原⽚⽣成多种⻛格,适应不同渠道 ⾕歌Gimini1.5,识别Saro⽣成视频中的不合理之处 不变|内容:稀缺的真实性 2、知识:信息准确,体验丰富 淘⾦热时期加州的历史镜头。(关于过去和未来的想象) 每个国家都需要⾃⼰的主权AI基础设施,要将语⾔和你的⽂化数据编纂成你⾃⼰的⼤型语⾔模型。 ——⻩仁勋 不变|内容:稀缺的真实性 3、故事:发挥创意,利⽤幻觉 ⼀个华丽渲染的珊瑚礁纸⼯艺品世界,到处都是五颜六⾊的⻥和海洋⽣物。 不变|思想:⼈的创造⼒ 不变|信息传播:⾏业的社会功能 内容⽣成供给侧产量提升,价值链向传播侧倾斜,传播平台的稀缺性和通道重要性越发凸显。 变|⼯具:拥抱变化,共创未来 1、⽤——成熟产品,积极应⽤ ⼤模型⾰命性提升媒体素材检索⽔平 变|⼯具:拥抱变化,共创未来 2、试——成熟技术,探索实验 建⽴联合实验室,利⽤媒体海量精标数据资源,探索专属模型训练和应⽤(精调模型训练) AIGC是智能本身的“元革命” 结语 -产品先行:加快AIGC在产品层的轻浅应用实践探索-场景先行:到具体产品中、到流程拆解中去找-单兵先行:以个体升级探索团队级开放式技术底座建设 -实验并行:从产品和业态深度改造、到产业结构优化-规划并行:兵团作战需要国家层面、行业机构统筹