行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

信息技术 2024-08-04 陈筱,杨昊国泰君安证券大表哥

根据所提供的文字内容，以下是关于AI在传播文化行业的深度研究总结：

大模型发展趋势

开源化与轻量化：大模型的发展呈现出开源化、轻量化和端侧模型发展的趋势。开源模型如Meta的Llama3.1性能已接近或超越闭源产品，如GPT-4o和Claude 3.5 Sonnet。轻量级模型如Mistral AI的Mistral Large 2在较低参数量下展现出与大型模型相当的性能。
端侧模型：AI硬件开始布局，如苹果的Apple Intelligence展示了在端侧的高性能表现，与大多数竞争对手相比，其模型在人类评估中表现更佳。

AI生成视频的进展

sora的创新：sora的推出打破了AI生成视频的时长限制，通过Diffusion Transformer的方法，实现了较长的连续性和高质量的视频生成，显著提升了行业标准。
多团队的迭代：多个团队在6-7月推出了各自的AI视频产品，如快手的可灵、智谱AI的清影、Luma的Dream Machine等，这些产品在生成速度、视频质量和功能多样性上均有提升。

投资建议

布局方向：看好AI技术对内容产业的推动作用，建议关注游戏、教育、情感陪伴与社交领域的应用。推荐公司包括吉比特、恺英网络、完美世界、美图公司、腾讯控股、网易、快手、巨人网络、南方传媒、皖新传媒、世纪天鸿、昆仑万维和盛天网络。

风险提示

应用推进风险：AI应用的推进可能面临放缓的风险。
商业化落地风险：AI相关的商业化落地可能不达预期。
生成式内容监管风险：生成式内容的监管政策可能存在不确定性。

主要关注点

大模型的开源化和轻量化：这是AI发展的关键趋势，对于降低使用门槛、加速应用落地具有重要意义。
AI生成视频能力的加速：随着技术进步，AI生成视频的质量和实用性得到提升，市场对此有积极反馈。
端侧AI模型的发展：AI硬件的集成使得AI服务更加贴近用户，提高了用户体验和效率。
投资机会：看好AI技术在内容产业的广泛应用，特别是在游戏、教育、社交等领域。

此报告提供了对AI在传播文化行业深入发展的洞察，强调了技术进步对内容产业的影响，并指出了投资机会和潜在风险。

股票研究/2024.08.08 大模型“开源、轻量、端侧”化，视频与语音加速落地传播文化业评级：增持陈筱(分析师)杨昊(分析师) 021-38675863021-38032025 ——AI行业深度更新报告上次评级:增持股票研究行业深度研究证券研究报告 chenxiao@gtjas.comyanghao029514@gtjas.com 登记编号S0880515040003S0880524020001 本报告导读：大模型能力提升阶段性放缓之际，我们提示关注“AI落地”进展：如大模型侧“开源”“轻量”“端侧”化趋势显著，视频、音频等领域AI自6月以来更新频出。投资要点：继续看好AI技术发展对内容产业的推动作用。随着AI大模型开源化、轻量化，以及视频和语音等模态的快速进步，部分应用场景有望发生变化，可沿如下思路进行布局：1）游戏等应用改造，推荐吉比特、恺英网络、完美世界、美图公司，受益标的腾讯控股、网易快手、巨人网络；2）教育赛道，受益标的南方传媒、皖新传媒、世纪天鸿；3）情感陪伴与社交，受益标的昆仑万维、盛天网络。大模型侧：开源能力快速提升，轻量化趋势显著。2024年以来，大模型发展呈现三大趋势：1）开源模型发展，能力快速接近闭源产品水平；2）“轻量化”，模型“性价比”快速提升；3）端侧模型发展AI硬件已经开始布局。这些都意味着AI大模型的发展在向着落地可行方向进发。 AI生成视频：能力兑现有望加速。自从2024年2月OpenAIsora 演示视频放出，AI视频领域的行业标准被显著提高，而经历4个多月的积累后，6-7月国内外多个团队交出“类sora”产品的首份答卷：国内有多次迭代、面向全球、快速商业化的快手可灵，从文本大模型发家的独角兽企业智谱；海外则有持续保持高生成质量的RunwayGen3Alpha、有3D生成相关经验帮助的Luma。这些产品的生成效果都比“前sora时代”的产品有显著提升，预示着AI视频领域的预期或加速兑现。语音功能：或助推AI产品迭代。GTP-4o的高级语音功能已经在7 月底开始小范围测试，这一功能使得AI可以从用户语音中获得情感、语调等更丰富的信息，回应时也可以体现出语调等更丰富的表达，且交互延迟小、可被打断，AI语音交互的体验预计有显著提升该领域AI技术的发展有望对教育、情感陪伴等应用场景的使用有改进效果，对人机交互体验提升将有所帮助。风险提示：AI应用推进放缓，AI相关商业化落地不及预期，生成式内容监管风险。相关报告传播文化业《多个知名IP获批进口版号，GPT-4o语音功能推进》2024.08.04 传播文化业《GPT-4o语音、视频模式测试，可提升教育、情感陪伴体验》2024.08.01 传播文化业《快手可灵推出付费会员， PixVerseV2全面升级》2024.07.28 传播文化业《快手可灵全球上线并升级，AI视频工具或迎加速发展》2024.07.25 传播文化业《《抓娃娃》引燃观影热情，多款头部影片待映》2024.07.20 目录 1.大模型侧：开源能力快速提升，轻量化趋势显著3 1.1.趋势一：开源模型发展，能力快速接近闭源产品水平3 1.2.趋势二：“轻量化”，模型“性价比”快速提升4 1.3.趋势三：端测模型发展，AI硬件已经开始布局5 2.AI生成视频：能力兑现有望加速7 2.1.sora打破以往时长限制，树立行业标准7 2.1.1.sora的“高度一致性”、“60s时长”为行业树立全新的标准7 2.1.2.采用DiT思路，大规模训练下体现出“涌现”能力8 2.2.6月以来多家“AI视频”产品推出，产业呈现加速发展9 2.3.快手可灵：已有多次升级，面向全球并尝试商业化10 2.4.智谱“清影”：AI大模型团队的“视频”领域尝试11 2.5.RunwayGen-3Alpha：视频领域“老将”，继续画质领跑13 2.6.LumaDreamMachine：3D资产经验助力“AI视频”拓展13 3.语音功能：或助推AI产品迭代15 3.1.以GPT-4o语音为代表，相比传统TTS信息更多15 3.1.1.GPT4-o：无延迟对话、理解和表达情感15 3.1.2.字节跳动Seed-TTS：可在表现力上接近人类水平16 3.1.3.ChatTTS：流畅语音合成，可预测和控制细粒度的韵律特征17 3.2.应用端：可显著提升教育和情感陪伴应用体验18 3.2.1.口语等教学场景质量有望提升18 3.2.2.情感陪伴：有望增加情感认同及潜在付费点20 4.投资建议21 5.风险提示22 1.大模型侧：开源能力快速提升，轻量化趋势显著 1.1.趋势一：开源模型发展，能力快速接近闭源产品水平开源模型Llama3.1发布，追平GPT-4o和Claude3.5Sonnet。2024年7月23日，Meta推出Llama3.1，将上下文长度扩展到128K，增加了对八种语言的支持，共包括8B、70B和405B三个尺寸。其405B的版本从性能上已经可媲美GPT-4o和Claude3.5，而其8B和70B版本都均超越同等尺寸的其他开源模型。图1：Llama3.1性能上追平GPT-4o和Claude3.5Sonnet 数据来源：Meta 图2：Llama8B和70B能力超越同尺寸其他开源模型数据来源：Meta 顶尖的开源模型趋近顶尖的闭源模型，Llama3.1或标志行业转折点。整体来看，开源大型语言模型在功能和性能方面仍大多落后于闭源模型，但开源模型的成长性有更高的斜率，随着时间推进，开源模型的能力在快速赶上，如在MMLU的测试维度中，最新的Llama3.5405B就已经非常接近Cluade 3.5Sonnet。开源模型更为开放，在学习和成长上来源丰富，其与闭源模型的差距有望持续缩小，甚至超越。图3：开源模型能力快速接近闭源产品数据来源：maximelabonne，36Kr 2024年以来开源模型频现，能力不断刷新。7月，MistralAI发布最新模型MistralLarge2，参数123B，用不到三分之一的参数量性能比肩Llama3.1405B，也不逊于GPT-4o、Claude3Opus等闭源模型。2024年以来推出的开产品名厂商发布时间参数量模型能力水平 Gemma 谷歌 2月 2B、7B 大幅超过Llama2 Phi-3-mini 微软 4月 3.8B 优于Llama8B Llama3 Meta 5月 8B、70B 接近GPT-4 DeepSeekv2 DeepSeek 5月 236B GPT-4Turbo Llama3.1 Meta 7月 8B、70B、405B GPT-4o Qwen2-72B 阿里巴巴 6月 72B 超过Llama3-70B MistralLarge2 MistralAI 7月 123B Llama3.1405B、GPT-4o、Claude3Opus 源模型不在少数，性能上足以媲美当前领先的闭源模型。表1:推荐公司盈利预测与估值情况表数据来源：智东西，机器之心，量子位，国泰君安证券研究 1.2.趋势二：“轻量化”，模型“性价比”快速提升大模型性价比逐年提升，优秀轻量模型层出不穷。成本更低的模型往往表现也更弱，但是随着相关研究推进，2022-2024年在同等成本下的大模型表现逐年提升，2024年轻量模型赛道也吸引了各家机构的关注，各类轻量模型层出不穷。图4：轻量级模型更具性价比数据来源：semaphore 表2:2024年以来领先轻量级通用语言模型不断出现机构模型参数规模上下文长度面壁智能阿里巴巴 Google MiniCPMMiniCPM-SQwen1.5Qwen2Gemma1 Gemini1.5Flash Gemma2 1.2B,2.4B 1.2B 0.5B,1,8B,4B,7B 0.5B,1.5B,7B 2B,7B 未披露 2.6B 4096,128K 未披露 32K 32K,128K 8192 1M 8192 AnthropicClaude3Haiku未披露200K InternLM2 商汤 InternLM2.5 1.8B,7B 7B 200K 200K，1M MetaLlama38B8K OpenELM DCLM 7B 2048，8192 微软 Phi-3 3.8B,7B 4K、8K、128K HuggingFace SmolLM 135M,360M,1.7B 2048 OpenAI GPT-4omini 未披露 128K 苹果 270M,450M,1.1B,3B 2048 数据来源：智东西，国泰君安证券研究 1.3.趋势三：端测模型发展，AI硬件已经开始布局人工评估显示AppleIntelligence优于同等大小模型及大模型。苹果AI包括两大基础语言模型：约30亿参数的端侧模型AFM-on-device，和在云服务器中运行的更大参数模型。其中，端侧模型具有30亿参数，能够完成文本撰写和润色、优先处理和总结通知、创建图像，以及执行应用内操作以简化跨应用的交互。从苹果在iPhone15Pro上的测试结果来看，如果用户向模型发送1000个token的prompt，模型将需要0.6秒开始响应，之后它将以每秒30个token的速度生成结果。相比于Gemma-2B、Mistral-7B、Phi- 3B-Mini和Gemma-7B等大多数竞争对手模型，苹果AI的模型更受人类评分者的青睐。图5：人工评估显示AppleIntelligence模型比其他竞争对手模型更受人类评分者青睐数据来源：Apple AppleIntelligence支持摘要、写作帮助、工具使用和代码等广泛功能。2024年7月30日，iOS18.1Beta版上线，同时发布了苹果AI的部分功能： 1）文本生成，只要使用标准输入文本系统，在第三方应用程序当中也能够实现文本总结、校对和重写，另外结合iOS18Beta的语音备忘录中已经上线的音频转录功能，文本生成系统还可以为录音生成摘要； 2）Siri：新的Siri可以理解两个查询之间的上下文，而无需重述正在谈论的内容； 3）相册：相册更新后，用户可以用自然语言搜索特定照片，甚至是视频当中的具体时刻。图6：AppleIntelligence可文本总结、校对及重写等图7：用户可用自然语言搜索特定照片数据来源：量子位数据来源：量子位三星公布系列AI功能，包括图像、翻译等。2024年7月10日，三星新品发布会上重点展示AI系列功能。在具体AI功能上，在三星折叠屏手机GalaxyZFold6和GalaxyZFlip6上搭载了多项AI功能，如AI画圈即搜、 AI翻译、AI图像生成等。其中，AI画圈即搜可以让用户直接在相机取景框中圈出感兴趣的物体，AI就会自动识别并提供相关信息；AI翻译则可以实时翻译多种语言，并支持面对面交流时使用折叠屏的外屏显示翻译结果；AI图像生成功能允许根据用户的几笔笔迹，生成精美的图片。此外，三星AI也具备AI改写等功能。图8：三星AI翻译能够实现实时全屏翻译图9：三星AI图像生成可将相册中照片转成动漫风格数据来源：三星数据来源：三星 VivoX100Pro在主流厂商旗舰手机中综合得分最高。2024年4月，移动发布《主流旗舰手机AI功能评测报告》，其中出厂内置蓝心小V的vivoX100Pro在�款主流厂商旗舰手机（OPPOFindX7Ultra、vivoX100Pro、荣耀 Magic6Pro、三星S24Ultra、小米14Pro）中整体表现最佳，提供了文生图、图片作诗等图像AI功能，给用户AI体验最佳。 1）图片功能上，vivoX100Pro文生图的表现相对优秀； 2）文字功能上，vivoX100Pro的蓝心小V在文字创作和总结摘要功能方面都明显领先其他手机； 3）识屏功能上，vivoX100Pro在屏幕朗读和识别人物、物品内容的AI功能上表现优秀；

点击免费查看完整报告

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

大模型发展趋势

AI生成视频的进展

投资建议

风险提示

主要关注点

你可能感兴趣

计算机行业周报：GPT-5.4mini与nano轻量登场，SkyReels-V4登顶全球AI视频大模型榜首

传媒行业深度报告：国产AI视频大模型应用落地先行，行业空间、降本幅度、竞争格局探讨

Gemini 3、TPU、端侧AI应用更新报告：模型多模态升级加速端侧AI落地，TPU冲击算力格局

计算机行业点评报告：ChatGPT与苹果系统深度集成，实时视频和屏幕共享加入高级语音模式

行业点评报告：AI大模型厂商加速导入硬件入口，端侧AI产业链投资机遇可期

【风口研报·公司】跻身AI视频浪潮加速商业化落地，这家公司“多媒体大模型”能力曝光具备一键成片、AI美术设计、文生音乐等核心能力，有望跟随Adobe以“数据模型应用”AI技术栈构筑核心壁垒

电子元器件：AI端侧落地加速，光学产品量价齐升

国君电子|AutoGLM产品升级,强化语音交互,端侧AI落地在即

电子行业深度报告：智能眼镜有望成为端侧AI落地最佳场景之一

半导体行业12月份月报：AI大模型和端侧应用持续落地，芯片价格持续低迷或展示供给依然充裕