行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业：Pika 1.0再掀AI视频热潮，多模态技术路径仍有探索空间

信息技术 2023-12-06 东方证券风与林

计算机行业动态跟踪报告

文生视频Pika 1.0发布与AI影像热潮

Pika 1.0发布：AI文生视频软件Pika 1.0于11月29日发布，该软件能够根据文字生成和编辑3D动画、动漫、卡通和电影，同时支持视频的实时编辑和修改。
团队与估值：Pika团队由4名成员组成，其中两位创始人曾是斯坦福大学人工智能实验室的博士生。Pika已完成三轮融资，估值超过2亿美元，至今已有50万用户。
战略合作伙伴关系：Pika是G!lab电影工业化实验室的战略合作伙伴，表明其在AI视频领域具备一定实力。

视频模型技术路线与多模态应用前景

技术路线尚未确定：AI生成视频领域技术路线尚未收敛，多模态技术存在探索空间。
多模态技术优势：多模态技术能更好地感知物理世界，与人类感知方式接近，应用前景更加广阔。
AI视频生成技术现状：当前AI视频生成技术在流畅性、帧生成逻辑、协调性等方面存在挑战，技术路线多样。
应用场景展望：多模态模型在智能驾驶、人形机器人、智能安防等领域展现出广泛应用潜力。

多模态模型应用实例

智能驾驶：特斯拉FSD v12实现端到端AI自动驾驶，多模态技术在端到端自动驾驶中扮演关键角色。
人形机器人：波士顿动力机器狗接入ChatGPT能力，实现与人类的交互，展现具身智能的巨大潜力。
具身智能：GPT-4等多模态大模型具备成为通用性人形机器人核心大脑的潜力，推动具身智能的发展。
智能安防：多模态技术在安防领域应用于视觉问答和交通监测，展示实际应用价值。

投资建议与投资标的

推荐关注：海康威视、大华股份、萤石网络、中科创达、虹软科技、科大讯飞、万兴科技等公司在多模态模型应用场景上的布局和卡位。
风险提示：技术落地不及预期、政策监管风险。

结论

随着Pika 1.0的发布以及AI视频领域的持续创新，多模态技术成为未来AI发展的重要方向。在智能驾驶、人形机器人、智能安防等领域的应用潜力巨大。投资建议关注具备多模态模型应用优势的公司，同时警惕技术落地风险及政策监管影响。

核心观点 ⚫文生视频Pika 1.0发布，AI影像热潮再起。11月29日，AI文生视频软件Pika 1.0版本发布，热度迅速席卷全网。Pika成立于今年7月，Pika 1.0是其第一个正式推出的版本，能够根据文字自动生成和编辑3D动画、动漫、卡通和电影，还能够支持对于视频的实时编辑和修改。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和Chenlin Meng，目前Pika已融资3轮，估值超过2亿美元。到现在为止Pika已经有了50万用户。 ⚫近期AI+视频方向更新频发。11月以来，海外在AI生成视频领域的动作进展较快。11月3日，Runway发布Gen-2模型更新，把生成的视频清晰度提升到了4K精度，改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能，只需对着图像任意位置一刷，就能让静止的一切物体动起来；11月16日，Meta发布了Emu Video，能够基于文本和图像输入生成视频剪辑；11月18日，字节跳动发布PixelDance，在生成视频的动态性上得到了显著提升；11月21日，Stability AI发布了自家的生成视频模型Stable Video Diffusion，支持文本到视频、图像到视频生成，并且还支持物体从单一视角到多视角的转化，也就是3D合成。浦俊懿021-63325888*6106pujunyi@orientsec.com.cn执业证书编号：S0860514050004陈超021-63325888*3144chenchao3@orientsec.com.cn执业证书编号：S0860521050002谢忱xiechen@orientsec.com.cn执业证书编号：S0860522090004 ⚫大语言模型技术路径已收敛，而视频生成模型仍处于探索期。在OpenAI的技术方向引领下，目前语言模型的技术路径基本就是GPT这一条路。而多模态技术方面，目前没有一家公司处于绝对领先地位，技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题，模型需要生成每一帧发生的事情，而用户的prompt往往非常简略，无法像图像生成一样为每一帧提供详细的描述，种种原因都导致了目前AI视频生成技术仍无法做到非常完美，技术路线也多种多样。杜云飞duyunfei@orientsec.com.cn覃俊宁qinjunning@orientsec.com.cn宋鑫宇songxinyu@orientsec.com.cn ⚫语言模型是对物理世界的抽象描述，多模态数据能够更真实反映物理世界属性，能感知真实物理世界的多模态模型应用前景更加广阔。语言作为一种精炼的表述载体，可以对物理世界进行抽象描述，例如文生图和文生视频中，用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲，语言所能承载的信息是远远不及图像和视频的。而多模态的数据例如图像、视频、音频、振动等信息，则更加能反映出物理世界的真实属性，是真正对于物理世界状态的感知，与人类感知世界的方式更加接近。我们认为，未来的多模态模型将能够真正实现对世界状态的完整感知，也因此能具备更多的应用场景。 ⚫多模态是生成式AI下一步重点方向，百花齐放的应用场景有望探索。现阶段大语言模型的竞争已经非常激烈，从技术突破的角度来看，我们认为，下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力，才能真正打通物理世界和数字世界的障壁，用最基础的感知世界能力直接生成操作，实现与物理世界最自然的交互。因此，基于多模态的应用场景仍需不断探索，AI视频生成仅仅是多模态技术路径中的一个小方向，多模态领域的ChatGPT时刻还未到来。投资建议与投资标的我们认为，在多模态模型应用场景上具备良好布局和卡位的公司值得关注。建议关注海康威视(002415，买入)（电子组覆盖）、大华股份(002236，买入)（电子组覆盖）、萤石网络(688475，未评级)（电子组覆盖）、中科创达(300496，买入)、虹软科技(688088，未评级)、科大讯飞(002230，买入)、万兴科技(300624，未评级)等公司风险提示技术落地不及预期；政策监管风险目录一、文生视频Pika 1.0发布，AI影像热潮再起...............................................4 二、视频模型技术路线尚未确定，多模态技术应用前景广阔..........................5 2.1 AI+视频更新迭代迅速，技术路线尚未收敛...................................................................52.2多模态能感知真实物理世界，应用前景更加广阔..........................................................5 投资建议与投资标的....................................................................................11 风险提示......................................................................................................11 图表目录图1：Pika支持视频生成和视频实时编辑.....................................................................................4图2：Pika Labs是G!lab电影工业化实验室的战略合作伙伴.......................................................4图3：近期AI视频领域更新.........................................................................................................5图4：FSD v12采用端到端AI自动驾驶.......................................................................................6图5：多模态大模型和端到端自动驾驶基本的应用架构................................................................7图6：波士顿动力机器狗接入ChatGPT能力后能与人类交互.......................................................7图7：波士顿动力机器狗可以扮演不同性格的导游.......................................................................7图8：GPT-4V可以与环境进行正确交互......................................................................................8图9：多模态技术在安防领域视觉问答场景应用...........................................................................9图10：多模态技术在交通监测场景应用.......................................................................................9 表1：近期机器人大模型领域的知名算法.....................................................................................9 一、文生视频Pika1.0发布，AI影像热潮再起 11月29日，AI文生视频软件Pika1.0版本发布，热度迅速席卷全网。Pika1.0的宣传视频中显示，在视频输入框内输入“马斯克穿着太空服，3D动画”，一个穿着太空服卡通版马斯克便出现了，也正是这一段视频让Pika吸引到了无数的关注。Pika成立于今年7月，Pika1.0是其第一个正式推出的版本，能够根据文字自动生成和编辑3D动画、动漫、卡通和电影，还能够支持对于视频的实时编辑和修改。数据来源：Pika，东方证券研究所 Pika团队仅有4名成员，估值超2亿美元。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和ChenlinMeng，她们在2022年参加Runway首届AI电影节时，发现Runway和AdobePhotoshop的工具并不好用，于是便退学创立了Pika。目前Pika已经融资3轮，估值超过2亿美元。到现在为止Pika已经有了50万用户。 Pika是G!lab电影工业化实验室的战略合作伙伴。11月，《流浪地球3》正式召开发布会，郭帆导演工作室总经理在会上宣布正式升级G!lab电影工业化实验室，打造专业“剧组”团队。在电影工业化3.0的新时代，PikaLabs作为唯一一个刚成立不久的初创公司，成为G!lab的战略合作伙伴，彰显了Pika在AI视频领域的实力。有关分析师的申明，见本报告最后部分。其他重要信息披露见分析师申明之后部分，或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。数据来源：中华网，东方证券研究所二、视频模型技术路线尚未确定，多模态技术应用前景广阔 2.1AI+视频更新迭代迅速，技术路线尚未收敛近期AI+视频方向更新频发。11月以来，海外在AI生成视频领域的动作进展较快。11月3日，Runway发布Gen-2模型更新，把生成的视频清晰度提升到了4K精度，改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能，只需对着图像任意位置一刷，就能让静止的一切物体动起来；11月16日，Meta发布了EmuVideo，能够基于文本和图像输入生成视频剪辑；11月18日，字节跳动发布PixelDance，在生成视频的动态性上得到了显著提升；11月21日，StabilityAI发布了自家的生成视频模型StableVideo Diffusion，支持文本到视频、图像到视频生成，并且还支持物体从单一视角到多视角的转化，也就是3D合成。大语言模型技术路径已收敛，而视频生成模型仍处于探索期。从海外风险投资者的角度看，目前语言模型层面能够挖掘的机会已经不多，在OpenAI的技术方向引领下，目前语言模型的技术路径基本就是GPT——预训练Transformer这一条路，在市面上已经有OpenAI、Anthropic、Inflection、Cohere等比较成熟的语言模型厂商的情况下，很难再去大量投入资金去探索别的语言模型技术路径。而多模态技术方面，目前没有一家公司处于绝对领先地位，技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题，模型需要生成每一帧发生的事情，而用户的prompt往往非常简略，无法像图像生成一样为每一帧提供详细的描述，种种原因都导致了目前AI视频生成技术仍无法做到非常完美，技术路线也多种多样，比如扩散模型、MaskedModel等，Pika目前的算法是基于Diffusion模型开发的一种全新模型。 AI视频生成的ChatGPT时刻有望到来。我们认为，目前AI生成视频的发展类似于GPT-2发展的时期，大家仍在探索模型的架构。按照这样的发展逻辑，AI视频生成的ChatGPT时刻也有望到来，在当下这个对于生成式AI技术重点关注和研究

点击免费查看完整报告

计算机行业：Pika 1.0再掀AI视频热潮，多模态技术路径仍有探索空间

计算机行业动态跟踪报告

文生视频Pika 1.0发布与AI影像热潮

视频模型技术路线与多模态应用前景

多模态模型应用实例

投资建议与投资标的

结论

你可能感兴趣

传媒互联网行业周报：AI视频Pika 1.0正式版发布，关注多模态融合大趋势下AI应用进展

传媒互联网行业周报：Pika展现AI生视频技术迭新，关注多模态应用机遇

传媒行业事件点评：Pika 1.0正式上线，关注AI生视频领域进展

互联网传媒行业周报：周观点：Humane推出可穿戴AI设备AiPin，Pika Labs发布文生视频模型Pika 1.0

计算机行业周报：世界人工智能大会规格空前有望再掀AI热潮

传媒行业双周报：AI视频应用PIKA爆火出圈，建议持续关注AI多模态应用进展

计算机：Pika文生视频能力跃迁，AIGC多模态应用加速推进

传媒行业周报2023年44期：空间视频赋能MR生态，贺岁档望掀观影热潮

计算机行业周报：Pika重磅更新，AI视频领域再获突破

当虹科技（688039）价值投资与转型分析报告从传统视频技术向 AI 多模态与空间计算的跨越

计算机行业：Pika 1.0再掀AI视频热潮，多模态技术路径仍有探索空间

你可能感兴趣

传媒互联网行业周报：AI视频Pika 1.0正式版发布，关注多模态融合大趋势下AI应用进展

传媒互联网行业周报：Pika展现AI生视频技术迭新，关注多模态应用机遇

传媒行业事件点评：Pika 1.0正式上线，关注AI生视频领域进展

互联网传媒行业周报：周观点：Humane推出可穿戴AI设备AiPin，Pika Labs发布文生视频模型Pika 1.0

计算机行业周报：世界人工智能大会规格空前 有望再掀AI热潮

传媒行业双周报：AI视频应用PIKA爆火出圈，建议持续关注AI多模态应用进展

计算机：Pika文生视频能力跃迁，AIGC多模态应用加速推进

传媒行业周报2023年44期：空间视频赋能MR生态，贺岁档望掀观影热潮

计算机行业周报：Pika重磅更新，AI视频领域再获突破

当虹科技（688039）价值投资与转型分析报告 从传统视频技术向 AI 多模态与空间计算的跨越

计算机行业周报：世界人工智能大会规格空前有望再掀AI热潮

当虹科技（688039）价值投资与转型分析报告从传统视频技术向 AI 多模态与空间计算的跨越