AI智能总结
正文目录 和市场不同的观点.........................................................................................................................................................4 多模态是大语言模型发展的必然趋势...........................................................................................................................5非原生MLLM:通过Pipeline形式连接多模态与LLM..........................................................................................6原生MLLM:端到端实现多模态,头部厂商的首选架构.....................................................................................10从大模型到多模态:商业化的必由之路......................................................................................................................13海外商业化更超前,国内出海进展迅速..............................................................................................................13二级公司:国内外2C/2B公司差距并不显著......................................................................................................17多模态产品持续迭代,可用性和商业化均向好....................................................................................................18图像生成:从高质量到易用性,各玩家寻求差异化卖点.............................................................................18视频生成:国内厂商多模态发力的主要赛道...............................................................................................20其他多模态交互AI产品..............................................................................................................................27思考:国内大模型的瓶颈,以及国内商业化的难点............................................................................................29国内大模型瓶颈:核心依然是算力受限,从而导致技术路线创新缓慢........................................................29国内商业化难点:模型仍有差距,且用户付费习惯一般.............................................................................30国内商业化突破点:多模态应用先行,实现单点到多点扩张......................................................................31 图表目录 图表1:代表性多模态大语言模型的时间线................................................................................................................5图表2:模块化vs原生:典型架构对比.....................................................................................................................6图表3:模块化vs原生:原生MLLM具有更好的统一性和效率优势.........................................................................6图表4:非原生MLLM架构详细示意图......................................................................................................................7图表5:主流多模态大语言模型主体结构...................................................................................................................8图表6:LLM的性能一直在提高.................................................................................................................................9图表7:MLLM的训练阶段及数据来源.....................................................................................................................10图表8:MLLM幻觉的缓解方法................................................................................................................................10图表9:头部模型厂商的原生多模态模型和特点.......................................................................................................11图表10:Google Gemini系列模型原生多模态架构.................................................................................................11图表11:头部模型厂商的原生多模态模型主要提升点..............................................................................................11图表12:GPT-4o原生多模态可以通过自然的对话来优化图像................................................................................12图表13:Gemini能够交错输出一道菜谱的文本和图像............................................................................................12图表14:典型原生AI应用的年度经常性收入(ARR)情况....................................................................................13图表15:全球Top 26 AI产品的年化收入情况(年化收入≥1亿美金)....................................................................14图表16:国内Top 31 AI产品的年化收入情况(年化收入>1000万美金)..............................................................15图表17:Top 100全球AI公司年化收入分布情况...................................................................................................15图表18:Top 100国内AI公司年化收入分布情况...................................................................................................15 图表19:AI应用Top 30 Web访问量和App MAU..................................................................................................16图表20:国内外2C公司的AI收入贡献度测算.......................................................................................................17图表21:国内外2B公司的AI收入贡献度测算.......................................................................................................18图表22:主流图像生成产品比较..............................................................................................................................19图表23:DiT的技术本质:将LDM中的U-Net替换成Transformer模块...............................................................20图表24:文生视频模型/产品排行榜:国内公司领先................................................................................................21图表25:图生视频模型/产品排行榜:国内公司领先................................................................................................21图表26:主流视频生成产品比较.........................