您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:AIGC系列研究:多模态大模型引领,应用端曙光初现 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC系列研究:多模态大模型引领,应用端曙光初现

文化传媒2024-04-29张衡、陈瑶蓉国信证券@***
AIGC系列研究:多模态大模型引领,应用端曙光初现

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2024年04月29日AIGC系列研究:多模态大模型引领,应用端曙光初现证券分析师:张衡021-60875160zhangheng2@guosen.com.cnS0980517060002证券分析师:陈瑶蓉021-61761058chenyaorong@guosen.com.cnS0980523100001行业研究 · 深度报告 传媒 · 传媒投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容报告摘要底层大模型持续迭代,国产大模型加速应用走向成熟。年初以来海内外大模型特别是多模态大模型持续迭代,应用底层支持能力不断提升。1)海外方面,OpenAI在23年发布GPT 4.0Turbo之后、年初发布文生视频大模型Sora;Google上线Gemini1.5,长文本、情景学习等能力大幅提升;Meta开源Llama 3,多模态版本随后将上线;Suno AI引发产业界对音乐GPT时刻到来的畅想;2)国内方面,Kimi为代表的国产大模型长文本能力提升显著,阶跃星辰、商汤、昆仑万维等国内厂商纷纷发布全新能力的多模态大模型;3)国内大模型能力快速提升,以Kimi、阶跃星辰、秘塔等为代表的新势力鲇鱼效应带动之下,国产大模型从能力到应用进展均有望超预期推进。C端场景持续泛化。1)海外市场Chatgpt用户数持续处于高位,Kimi、豆包、天工等为代表国产应用表现迅猛,Chatbots当前仍是使用最为广泛的场景应用;2)基于AIGC,利用自然语言处理、机器学习、深度学习等技术,对用户的搜索语句进行分析和理解,从而具备更加精准的搜索结果呈现形式的AI搜索引擎开始破圈成长,从海外的bing,到国内的秘塔、天工搜索等产品,从用户体验到商业变现可能均展现出较强的生命力;3)AI社交应用方面,海外的Characeter AI,国内出海应用Talkie(MiniMax)、linky(昆仑万维),国内市场X Eva(小冰)等均有不错表现;4)音乐及视频,OpenAI发布由Sora制作的MV—《Worldweight》,国外Suno、国内SkyMusic的音乐生成能力获得广泛受众。国产厂商应用落地优势开始展现。1) Chatbot方面,ChatGPT用户数量仍有绝对优势、但国内内Chatbot访问量增长迅猛。文心一言、阿里通义千问、豆包等大厂产品用户量高位持续增长,新实力Kimi等增长迅猛、展现出更强生命力;2)增速上来看,3月份全球前十应用增速前十中一半为中国厂商,其中增速榜前二的秘塔、Kimi均为中小创业团队,印证国内更为活跃的应用创新活力;3)产品形态上,国内APP端增速表现迅猛、技术扩散之下国内应用端机会更为明确。投资建议:从概念到落地,关注应用驱动下的传媒板块机会。1)科技进步是传媒行业成长以及二级市场超额收益的核心动力。从当前阶段来看:以AI为代表的第四次生产力革命已来并成为驱动传媒板块表现的核心驱动力;从概念到产品,在底层技术逐步成熟可用的背景下,从0到1的产品化、商业化正处在随时落地的奇点时刻,AIGC应用端驱动的板块投资机会值得期待;2)关注海内外应用落地映射,重点把握产品化、商业化落地关键环节核心标的:a)大模型、IP及数据:昆仑万维、中文在线、上海电影、浙数文化、奥飞娱乐、光线传媒、华策影视、捷成股份、视觉中国、掌趣科技等标的;b)多模态持续推进,场景落地关注AI+视频\营销\游戏等领域,建议关注恺英网络、三七互娱、掌趣科技、华策影视、盛天网络、紫天科技、奥飞娱乐、汤姆猫、巨人网络、盛天网络、蓝色光标、天娱数科、浙文互联等标的。 请务必阅读正文之后的免责声明及其项下所有内容大模型持续迭代,加速应用走向成熟01C端场景持续泛化02国产厂商应用落地优势开始展现03从概念到落地,关注应用驱动下的传媒板块机会04目录 请务必阅读正文之后的免责声明及其项下所有内容1. 大模型:海外引领,国内加速 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随OpenAI发布Sora引发产业与资本市场震动OpenAI发布Sora文生视频模型,可以根据用户输入的文本描述,生成一段视频内容,视频时长可达1分钟且视觉质量较高。对于任何需要制作视频的艺术家、电影制片人或学生来说,这都带来了无限可能。Sora 可以创建包含多人、特定运动类型和详细背景的复杂场景。它能生成准确反映用户提示的视频。例如,Sora 可以制作时尚女性走在霓虹闪烁的东京街头的视频、雪地里的巨型长毛象视频,甚至是太空人冒险的电影预告片。图:Sora生成“雪地里的巨型长毛象”资料来源:OpenAI,国信证券经济研究所整理图:Sora生成“时尚女性走在霓虹闪烁的东京街头”资料来源:OpenAI,国信证券经济研究所整理图:GPT4 多模态资料来源: OpenAI,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随谷歌:Gemini1.5上线长语境理解方面取得突破,能够显著增加模型可处理的信息量,上下文窗口长度扩展到100万个tokens;一次处理大量的信息:包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库;能对不同的模式执行高度复杂的理解和推理任务,包括视频、代码等;“情境学习”技能:可以从长时间提示的信息中学习新技能,而无需额外的微调资料来源:OpenAI,国信证券经济研究所整理资料来源:OpenAI,国信证券经济研究所整理图:谷歌Gemini1.5模型提升对比资料来源:谷歌,国信证券经济研究所整理图:谷歌Gemini1.5模型参数图:谷歌Gemini1.5能力 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随Meta:发布最强开源大模型Llama 3,多模态版本随后将上线Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,上下文窗口为8k。Meta表示,通过使用更高质量的训练数据和指令微调,Llama 3比前代Llama 2有了“显著提升”。未来Meta将推出Llama 3的更大参数版本,其将拥有超过4000亿参数。Meta也将在后续为Llama 3推出多模态等新功能根据Meta的测试结果,Llama 3 8B模型在MMLU、GPQA、HumanEval等多项性能基准上均超过了Gemma 7B和Mistral 7B Instruct,70B模型则超越了名声在外的闭源模型Claude 3的中间版本Sonnet,和谷歌的Gemini Pro 1.5相比三胜两负。在常规数据集之外,Meta还致力于优化Llama 3在实际场景中的性能,为此专门研发了一套高质量的人工测试集。该测试集包含1800条数据,涵盖了寻求建议、封闭式问题回答、头脑风暴、编码、写作等12个关键用例,并对开发团队保密。在这套测试集中,从结果来看,Llama 3的成绩大幅超越了Llama 2,也胜过了Claude 3 Sonnet、Mistral Medium和GPT-3.5这些知名模型图:Llama 3表现测试资料来源:Meta,国信证券经济研究所整理图:Llama 3实际场景横向对比资料来源: Meta ,国信证券经济研究所整理图:400B+模型部分测试结果资料来源: Meta,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随音乐界的GPT——Suno AIAI音乐生成模型Suno在发布V3版本后火爆出圈,只需要输入简单的提示词,比如音乐主题、风格、流派、歌词、音色等,Suno就能快速生成一首长达2分钟的完整音乐资料来源:SunoAI,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随商汤科技发布“日日新SenseNova 4.0”Ø“日日新SenseNova 4.0”拥有更全面的知识覆盖、更可靠的推理能力,更优越的长文本理解力及更稳定的数字推理能力和更强的代码生成能力,并支持跨模态交互。日日新·商量大语言模型-通用版本(SenseChat V4),支持128K语境窗口长度,综合整体评测成绩水平比肩 GPT-4,相较GPT-3.5已经实现全面超越Ø商量多模态大模型(SenseChat-Vision V4)拥有300亿参数,图文理解能力在权威评测基准测试集MME Benchmark上综合得分排名首位,综合得分达2199.5(超过GPT-4V的1926.57)Ø秒画文生图大模型(SenseMirage V4)较此前版本,参数量提升至百亿量级,通过Mixture of text experts、Spatial-aware CFG等算法优化,语义理解能力与图像质感细节表现显著增强,可达成电影级海报生成水平资料来源:商汤,国信证券经济研究所整理图:日日新·商量大语言模型能力对比资料来源:商汤,国信证券经济研究所整理图:日日新·商量多模态大模型模型能力对比图:秒画文生图大模型资料来源:商汤,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随昆仑万维发布天宫3.0大模型及SkyMusic音乐大模型Ø天工3.0参数规模达到4000亿级,是全球最大规模的开源MoE大模型。相较于上一代,天工3.0的模型技术知识能力提升超过20%,数学、推理、代码、文创能力提升超过30%Ø与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型;同时还拥有独创的参考音乐生成与方言歌曲生成能力。资料来源:昆仑万维,国信证券经济研究所整理图:天工3.0模型参数超越Grok-1,成全球最大开源MoE专家混合大模型资料来源:昆仑万维,国信证券经济研究所整理图:天工SkyMusic综合性能超越Suno V3 请务必阅读正文之后的免责声明及其项下所有内容1 多模态大模型:海外领跑、国内追随字节跳动推出视频模型BoximatorPixVerse——国产Sora ?资料来源:Boximator,国信证券经济研究所整理图:Boximator生成“大风把女生的伞吹走了”资料来源:PixVerse,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容2. C端场景持续泛化 请务必阅读正文之后的免责声明及其项下所有内容2 场景落地:Chatbots从Chatgpt到Kimi,Chatbots当前仍是使用最为广泛的场景图:豆包资料来源:豆包,国信证券经济研究所整理资料来源:天工,国信证券经济研究所整理图:Kimi图:ChatGpt图:天工资料来源:Kimi,国信证券经济研究所整理资料来源:OpenAI,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容2 场景落地:AI搜索AI搜索引擎基于人工智能技术,利用自然语言处理、机器学习、深度学习等技术,对用户的搜索语句进行分析和理解,从而推荐更加准确的搜索结果。其实现原理是将用户的查询意图和知识库中的信息进行匹配和比对,找到最匹配的答案,并输出给用户在搜索结果的呈现方式上,更加注重智能化、个性化和交互化的体验。通过分析用户在搜索过程中的行为与反馈,AI搜索引擎能够推荐更符合个性化需求的搜索结果,并不断优化搜索算法,提升搜索结果的质量和准确性图:秘塔搜索资料来源:秘塔,国信证券经济研究所整理资料来源:天工搜索,国信证券经济研究所整理图:天工AI搜索 请务必阅读正文之后的免责声明及其项下所有内容2 场景落地:AI社交据Mordor Intelligence报告, AI社交应用规模将从2023年的16.4亿美元增长至2028年的56.6亿美元;海外的Characeter AI,国内出海应用Talkie(Mi