您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间 - 发现报告

计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间

信息技术2023-12-06东方证券风***
AI智能总结
查看更多
计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间

核心观点 ⚫文生视频Pika 1.0发布,AI影像热潮再起。11月29日,AI文生视频软件Pika 1.0版本发布,热度迅速席卷全网。Pika成立于今年7月,Pika 1.0是其第一个正式推出的版本,能够根据文字自动生成和编辑3D动画、动漫、卡通和电影,还能够支持对于视频的实时编辑和修改。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和Chenlin Meng,目前Pika已融资3轮,估值超过2亿美元。到现在为止Pika已经有了50万用户。 ⚫近期AI+视频方向更新频发。11月以来,海外在AI生成视频领域的动作进展较快。11月3日,Runway发布Gen-2模型更新,把生成的视频清晰度提升到了4K精度,改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能,只需对着图像任意位置一刷,就能让静止的一切物体动起来;11月16日,Meta发布了Emu Video,能够基于文本和图像输入生成视频剪辑;11月18日,字节跳动发布PixelDance,在生成视频的动态性上得到了显著提升;11月21日,Stability AI发布了自家的生成视频模型Stable Video Diffusion,支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。 浦俊懿021-63325888*6106pujunyi@orientsec.com.cn执业证书编号:S0860514050004陈超021-63325888*3144chenchao3@orientsec.com.cn执业证书编号:S0860521050002谢忱xiechen@orientsec.com.cn执业证书编号:S0860522090004 ⚫大语言模型技术路径已收敛,而视频生成模型仍处于探索期。在OpenAI的技术方向引领下,目前语言模型的技术路径基本就是GPT这一条路。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题,模型需要生成每一帧发生的事情,而用户的prompt往往非常简略,无法像图像生成一样为每一帧提供详细的描述,种种原因都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样。 杜云飞duyunfei@orientsec.com.cn覃俊宁qinjunning@orientsec.com.cn宋鑫宇songxinyu@orientsec.com.cn ⚫语言模型是对物理世界的抽象描述,多模态数据能够更真实反映物理世界属性,能感知真实物理世界的多模态模型应用前景更加广阔。语言作为一种精炼的表述载体,可以对物理世界进行抽象描述,例如文生图和文生视频中,用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲,语言所能承载的信息是远远不及图像和视频的。而多模态的数据例如图像、视频、音频、振动等信息,则更加能反映出物理世界的真实属性,是真正对于物理世界状态的感知,与人类感知世界的方式更加接近。我们认为,未来的多模态模型将能够真正实现对世界状态的完整感知,也因此能具备更多的应用场景。 ⚫多模态是生成式AI下一步重点方向,百花齐放的应用场景有望探索。现阶段大语言模型的竞争已经非常激烈,从技术突破的角度来看,我们认为,下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力,才能真正打通物理世界和数字世界的障壁,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。因此,基于多模态的应用场景仍需不断探索,AI视频生成仅仅是多模态技术路径中的一个小方向,多模态领域的ChatGPT时刻还未到来。 投资建议与投资标的 我们认为,在多模态模型应用场景上具备良好布局和卡位的公司值得关注。建议关注海康威视(002415,买入)(电子组覆盖)、大华股份(002236,买入)(电子组覆盖)、萤石 网 络(688475, 未 评 级)( 电 子 组 覆 盖 ) 、中 科 创 达(300496, 买 入)、 虹 软 科 技(688088,未评级)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 风险提示 技术落地不及预期;政策监管风险 目录 一、文生视频Pika 1.0发布,AI影像热潮再起...............................................4 二、视频模型技术路线尚未确定,多模态技术应用前景广阔..........................5 2.1 AI+视频更新迭代迅速,技术路线尚未收敛...................................................................52.2多模态能感知真实物理世界,应用前景更加广阔..........................................................5 投资建议与投资标的....................................................................................11 风险提示......................................................................................................11 图表目录 图1:Pika支持视频生成和视频实时编辑.....................................................................................4图2:Pika Labs是G!lab电影工业化实验室的战略合作伙伴.......................................................4图3:近期AI视频领域更新.........................................................................................................5图4:FSD v12采用端到端AI自动驾驶.......................................................................................6图5:多模态大模型和端到端自动驾驶基本的应用架构................................................................7图6:波士顿动力机器狗接入ChatGPT能力后能与人类交互.......................................................7图7:波士顿动力机器狗可以扮演不同性格的导游.......................................................................7图8:GPT-4V可以与环境进行正确交互......................................................................................8图9:多模态技术在安防领域视觉问答场景应用...........................................................................9图10:多模态技术在交通监测场景应用.......................................................................................9 表1:近期机器人大模型领域的知名算法.....................................................................................9 一、文生视频Pika1.0发布,AI影像热潮再起 11月29日,AI文生视频软件Pika1.0版本发布,热度迅速席卷全网。Pika1.0的宣传视频中显示,在视频输入框内输入“马斯克穿着太空服,3D动画”,一个穿着太空服卡通版马斯克便出现了,也正是这一段视频让Pika吸引到了无数的关注。Pika成立于今年7月,Pika1.0是其第一个正式推出的版本,能够根据文字自动生成和编辑3D动画、动漫、卡通和电影,还能够支持对于视频的实时编辑和修改。 数据来源:Pika,东方证券研究所 Pika团队仅有4名成员,估值超2亿美元。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和ChenlinMeng,她们在2022年参加Runway首届AI电影节时,发现Runway和AdobePhotoshop的工具并不好用,于是便退学创立了Pika。目前Pika已经融资3轮,估值超过2亿美元。到现在为止Pika已经有了50万用户。 Pika是G!lab电影工业化实验室的战略合作伙伴。11月,《流浪地球3》正式召开发布会,郭帆导演工作室总经理在会上宣布正式升级G!lab电影工业化实验室,打造专业“剧组”团队。在电影工业化3.0的新时代,PikaLabs作为唯一一个刚成立不久的初创公司,成为G!lab的战略合作伙伴,彰显了Pika在AI视频领域的实力。 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 数据来源:中华网,东方证券研究所 二、视频模型技术路线尚未确定,多模态技术应用前景广阔 2.1AI+视频更新迭代迅速,技术路线尚未收敛 近期AI+视频方向更新频发。11月以来,海外在AI生成视频领域的动作进展较快。11月3日,Runway发布Gen-2模型更新,把生成的视频清晰度提升到了4K精度,改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能,只需对着图像任意位置一刷,就能让静止的一切物体动起来;11月16日,Meta发布了EmuVideo,能够基于文本和图像输入生成视频剪辑;11月18日,字节跳动发布PixelDance,在生成视频的动态性上得到了显著提升;11月21日,StabilityAI发布了自家的生成视频模型StableVideo Diffusion,支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。 大语言模型技术路径已收敛,而视频生成模型仍处于探索期。从海外风险投资者的角度看,目前语言模型层面能够挖掘的机会已经不多,在OpenAI的技术方向引领下,目前语言模型的技术路径基本就是GPT——预训练Transformer这一条路,在市面上已经有OpenAI、Anthropic、Inflection、Cohere等比较成熟的语言模型厂商的情况下,很难再去大量投入资金去探索别的语言模型技术路径。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题,模型需要生成每一帧发生的事情,而用户的prompt往往非常简略,无法像图像生成一样为每一帧提供详细的描述,种种原因都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样,比如扩散模型、MaskedModel等,Pika目前的算法是基于Diffusion模型开发的一种全新模型。 AI视频生成的ChatGPT时刻有望到来。我们认为,目前AI生成视频的发展类似于GPT-2发展的时期,大家仍在探索模型的架构。按照这样的发展逻辑,AI视频生成的ChatGPT时刻也有望到来,在当下这个对于生成式AI技术重点关注和研究