您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:AI行业深度更新报告:大模型“开源、轻量、端侧”化,视频与语音加速落地 - 发现报告

AI行业深度更新报告:大模型“开源、轻量、端侧”化,视频与语音加速落地

信息技术2024-08-04陈筱、杨昊国泰君安证券大***
AI智能总结
查看更多
AI行业深度更新报告:大模型“开源、轻量、端侧”化,视频与语音加速落地

股票研究/2024.08.08 大模型“开源、轻量、端侧”化,视频与语音加速落地传播文化业评级:增持 陈筱(分析师)杨昊(分析师) 021-38675863021-38032025 ——AI行业深度更新报告 上次评级:增持 股票研 究 行业深度研 究 证券研究报 告 chenxiao@gtjas.comyanghao029514@gtjas.com 登记编号S0880515040003S0880524020001 本报告导读: 大模型能力提升阶段性放缓之际,我们提示关注“AI落地”进展:如大模型侧“开源”“轻量”“端侧”化趋势显著,视频、音频等领域AI自6月以来更新频出。 投资要点: 继续看好AI技术发展对内容产业的推动作用。随着AI大模型开源化、轻量化,以及视频和语音等模态的快速进步,部分应用场景有望发生变化,可沿如下思路进行布局:1)游戏等应用改造,推荐吉 比特、恺英网络、完美世界、美图公司,受益标的腾讯控股、网易快手、巨人网络;2)教育赛道,受益标的南方传媒、皖新传媒、世纪天鸿;3)情感陪伴与社交,受益标的昆仑万维、盛天网络。 大模型侧:开源能力快速提升,轻量化趋势显著。2024年以来,大 模型发展呈现三大趋势:1)开源模型发展,能力快速接近闭源产品 水平;2)“轻量化”,模型“性价比”快速提升;3)端侧模型发展AI硬件已经开始布局。这些都意味着AI大模型的发展在向着落地可行方向进发。 AI生成视频:能力兑现有望加速。自从2024年2月OpenAIsora 演示视频放出,AI视频领域的行业标准被显著提高,而经历4个多 月的积累后,6-7月国内外多个团队交出“类sora”产品的首份答卷:国内有多次迭代、面向全球、快速商业化的快手可灵,从文本大模型发家的独角兽企业智谱;海外则有持续保持高生成质量的RunwayGen3Alpha、有3D生成相关经验帮助的Luma。这些产品的生成效果都比“前sora时代”的产品有显著提升,预示着AI视频领域的预期或加速兑现。 语音功能:或助推AI产品迭代。GTP-4o的高级语音功能已经在7 月底开始小范围测试,这一功能使得AI可以从用户语音中获得情 感、语调等更丰富的信息,回应时也可以体现出语调等更丰富的表达,且交互延迟小、可被打断,AI语音交互的体验预计有显著提升该领域AI技术的发展有望对教育、情感陪伴等应用场景的使用有改进效果,对人机交互体验提升将有所帮助。 风险提示:AI应用推进放缓,AI相关商业化落地不及预期,生成式 内容监管风险。 相关报告 传播文化业《多个知名IP获批进口版号,GPT-4o语音功能推进》2024.08.04 传播文化业《GPT-4o语音、视频模式测试,可提升教育、情感陪伴体验》2024.08.01 传播文化业《快手可灵推出付费会员, PixVerseV2全面升级》2024.07.28 传播文化业《快手可灵全球上线并升级,AI视频工具或迎加速发展》2024.07.25 传播文化业《《抓娃娃》引燃观影热情,多款头部影片待映》2024.07.20 目录 1.大模型侧:开源能力快速提升,轻量化趋势显著3 1.1.趋势一:开源模型发展,能力快速接近闭源产品水平3 1.2.趋势二:“轻量化”,模型“性价比”快速提升4 1.3.趋势三:端测模型发展,AI硬件已经开始布局5 2.AI生成视频:能力兑现有望加速7 2.1.sora打破以往时长限制,树立行业标准7 2.1.1.sora的“高度一致性”、“60s时长”为行业树立全新的标准7 2.1.2.采用DiT思路,大规模训练下体现出“涌现”能力8 2.2.6月以来多家“AI视频”产品推出,产业呈现加速发展9 2.3.快手可灵:已有多次升级,面向全球并尝试商业化10 2.4.智谱“清影”:AI大模型团队的“视频”领域尝试11 2.5.RunwayGen-3Alpha:视频领域“老将”,继续画质领跑13 2.6.LumaDreamMachine:3D资产经验助力“AI视频”拓展13 3.语音功能:或助推AI产品迭代15 3.1.以GPT-4o语音为代表,相比传统TTS信息更多15 3.1.1.GPT4-o:无延迟对话、理解和表达情感15 3.1.2.字节跳动Seed-TTS:可在表现力上接近人类水平16 3.1.3.ChatTTS:流畅语音合成,可预测和控制细粒度的韵律特征17 3.2.应用端:可显著提升教育和情感陪伴应用体验18 3.2.1.口语等教学场景质量有望提升18 3.2.2.情感陪伴:有望增加情感认同及潜在付费点20 4.投资建议21 5.风险提示22 1.大模型侧:开源能力快速提升,轻量化趋势显著 1.1.趋势一:开源模型发展,能力快速接近闭源产品水平 开源模型Llama3.1发布,追平GPT-4o和Claude3.5Sonnet。2024年7月23日,Meta推出Llama3.1,将上下文长度扩展到128K,增加了对八种语言的支持,共包括8B、70B和405B三个尺寸。其405B的版本从性能上已 经可媲美GPT-4o和Claude3.5,而其8B和70B版本都均超越同等尺寸的其他开源模型。 图1:Llama3.1性能上追平GPT-4o和Claude3.5Sonnet 数据来源:Meta 图2:Llama8B和70B能力超越同尺寸其他开源模型 数据来源:Meta 顶尖的开源模型趋近顶尖的闭源模型,Llama3.1或标志行业转折点。整体来看,开源大型语言模型在功能和性能方面仍大多落后于闭源模型,但开源模型的成长性有更高的斜率,随着时间推进,开源模型的能力在快速赶上, 如在MMLU的测试维度中,最新的Llama3.5405B就已经非常接近Cluade 3.5Sonnet。开源模型更为开放,在学习和成长上来源丰富,其与闭源模型的差距有望持续缩小,甚至超越。 图3:开源模型能力快速接近闭源产品 数据来源:maximelabonne,36Kr 2024年以来开源模型频现,能力不断刷新。7月,MistralAI发布最新模型MistralLarge2,参数123B,用不到三分之一的参数量性能比肩Llama3.1405B,也不逊于GPT-4o、Claude3Opus等闭源模型。2024年以来推出的开 产品名 厂商 发布时间 参数量 模型能力水平 Gemma 谷歌 2月 2B、7B 大幅超过Llama2 Phi-3-mini 微软 4月 3.8B 优于Llama8B Llama3 Meta 5月 8B、70B 接近GPT-4 DeepSeekv2 DeepSeek 5月 236B GPT-4Turbo Llama3.1 Meta 7月 8B、70B、405B GPT-4o Qwen2-72B 阿里巴巴 6月 72B 超过Llama3-70B MistralLarge2 MistralAI 7月 123B Llama3.1405B、GPT-4o、Claude3Opus 源模型不在少数,性能上足以媲美当前领先的闭源模型。表1:推荐公司盈利预测与估值情况表 数据来源:智东西,机器之心,量子位,国泰君安证券研究 1.2.趋势二:“轻量化”,模型“性价比”快速提升 大模型性价比逐年提升,优秀轻量模型层出不穷。成本更低的模型往往表现也更弱,但是随着相关研究推进,2022-2024年在同等成本下的大模型表 现逐年提升,2024年轻量模型赛道也吸引了各家机构的关注,各类轻量模型层出不穷。 图4:轻量级模型更具性价比 数据来源:semaphore 表2:2024年以来领先轻量级通用语言模型不断出现 机构模型参数规模上下文长度 面壁智能阿里巴巴 Google MiniCPMMiniCPM-SQwen1.5Qwen2Gemma1 Gemini1.5Flash Gemma2 1.2B,2.4B 1.2B 0.5B,1,8B,4B,7B 0.5B,1.5B,7B 2B,7B 未披露 2.6B 4096,128K 未披露 32K 32K,128K 8192 1M 8192 AnthropicClaude3Haiku未披露200K InternLM2 商汤 InternLM2.5 1.8B,7B 7B 200K 200K,1M MetaLlama38B8K OpenELM DCLM 7B 2048,8192 微软 Phi-3 3.8B,7B 4K、8K、128K HuggingFace SmolLM 135M,360M,1.7B 2048 OpenAI GPT-4omini 未披露 128K 苹果 270M,450M,1.1B,3B 2048 数据来源:智东西,国泰君安证券研究 1.3.趋势三:端测模型发展,AI硬件已经开始布局 人工评估显示AppleIntelligence优于同等大小模型及大模型。苹果AI包括两大基础语言模型:约30亿参数的端侧模型AFM-on-device,和在云服务器中运行的更大参数模型。其中,端侧模型具有30亿参数,能够完成文 本撰写和润色、优先处理和总结通知、创建图像,以及执行应用内操作以简化跨应用的交互。从苹果在iPhone15Pro上的测试结果来看,如果用户向模型发送1000个token的prompt,模型将需要0.6秒开始响应,之后它将以每秒30个token的速度生成结果。相比于Gemma-2B、Mistral-7B、Phi- 3B-Mini和Gemma-7B等大多数竞争对手模型,苹果AI的模型更受人类评分者的青睐。 图5:人工评估显示AppleIntelligence模型比其他竞争对手模型更受人类评分者青睐 数据来源:Apple AppleIntelligence支持摘要、写作帮助、工具使用和代码等广泛功能。2024年7月30日,iOS18.1Beta版上线,同时发布了苹果AI的部分功能: 1)文本生成,只要使用标准输入文本系统,在第三方应用程序当中也能够实现文本总结、校对和重写,另外结合iOS18Beta的语音备忘录中已经上线的音频转录功能,文本生成系统还可以为录音生成摘要; 2)Siri:新的Siri可以理解两个查询之间的上下文,而无需重述正在谈论的 内容; 3)相册:相册更新后,用户可以用自然语言搜索特定照片,甚至是视频当中的具体时刻。 图6:AppleIntelligence可文本总结、校对及重写等图7:用户可用自然语言搜索特定照片 数据来源:量子位数据来源:量子位 三星公布系列AI功能,包括图像、翻译等。2024年7月10日,三星新品发布会上重点展示AI系列功能。在具体AI功能上,在三星折叠屏手机GalaxyZFold6和GalaxyZFlip6上搭载了多项AI功能,如AI画圈即搜、 AI翻译、AI图像生成等。其中,AI画圈即搜可以让用户直接在相机取景框中圈出感兴趣的物体,AI就会自动识别并提供相关信息;AI翻译则可以实时翻译多种语言,并支持面对面交流时使用折叠屏的外屏显示翻译结果;AI图像生成功能允许根据用户的几笔笔迹,生成精美的图片。此外,三星AI也具备AI改写等功能。 图8:三星AI翻译能够实现实时全屏翻译图9:三星AI图像生成可将相册中照片转成动漫风格 数据来源:三星数据来源:三星 VivoX100Pro在主流厂商旗舰手机中综合得分最高。2024年4月,移动发布《主流旗舰手机AI功能评测报告》,其中出厂内置蓝心小V的vivoX100Pro在�款主流厂商旗舰手机(OPPOFindX7Ultra、vivoX100Pro、荣耀 Magic6Pro、三星S24Ultra、小米14Pro)中整体表现最佳,提供了文生图、图片作诗等图像AI功能,给用户AI体验最佳。 1)图片功能上,vivoX100Pro文生图的表现相对优秀; 2)文字功能上,vivoX100Pro的蓝心小V在文字创作和总结摘要功能方面都明显领先其他手机; 3)识屏功能上,vivoX100Pro在屏幕朗读和识别人物、物品内容的AI功能上表现优秀;