证券研究报告| 2024年5月7日 大模型进展2.0 行业研究·专题报告 投资评级:超配(维持评级) 报告摘要 AI大模型市场表现与竞争格局发生变化,Kimi成为国产大模型曙光。市场上的大模型层出不穷,以Kimi为代表的产品凭借其在长文本处理领域的卓越能力,迅 速成为用户访问量最高的产品,打破了现有竞争格局。Kimi在中文领域对GPT-4、Claude等国际大模型展现出明显优势,并通过不断的技术迭代和用户体验优 化,实现了用户流量的激增和市场的快速扩张。公司认为,Kimi的AI-Native产品核心价值在于提供个性化交互,其长文本上下文处理能力(LongContext)能大 幅减少模型定制成本,解决90%的模型定制问题。2024年3月下旬,Kimi进一步将上下文处理能力提升至200万汉字,随着用户流量的激增,服务连续进行了5 次扩容。公司在C端致力于将Kimi打造成超级应用,成为AI原生交互的入口;在B端,通过MoonshotAI开放平台提供与OpenAI兼容的API,内测期间已有法 律、游戏阅读等领域应用进行测试,反馈良好。随着Kimi应用访问量的持续增长,预计将再次拉动算力需求的快速增长,推动AI行业的算力基础设施发展。。 随着AI大模型技术的发展和应用场景的拓展,全球算力需求正面临重估。Meta等科技巨头对AI算力的需求超出预期,预计到2024年底将拥有接近60万颗H100 GPU的等效算力。Sora模型的发布标志着AI视频生成领域的新突破,进一步推动了多模态大模型的发展,预示着未来对算力需求的大幅提升。同时,美国政府 的限制措施可能促使中国等国家的企业自行购买算力卡或租赁国产AI算力,推动国产AI产业链的革新和发展。在此背景下,Kimi等国产大模型的成功,不仅带 动了产业链的革新,还为内容创作、游戏互动、AI陪伴等领域带来了新的应用场景和创新机遇。此外,Step系列通用大模型的发布和Pixverse在AI视频生成领 域的领先地位,进一步展示了国产AI技术的竞争力和市场潜力。 投资建议:1)多模态大模型拉动全球算力需求快速增长,叠加美国将限制云厂商对华客户提供AI云服务,国产AI算力迎来发展机会;2)随着AI大模型成本下 降与技术发展,AI应用产业将快速进步,建议关注AI应用相关个股。建议关注金山办公、科大讯飞、同花顺、海光信息。维持计算机行业超配评级。 风险提示:宏观经济波动;下游需求不及预期;AI伦理风险;技术发展不及预期。 目录 01 大模型群雄并起,Kimi打破竞争格局 02 大模型引领全球AI算力需求重估 •月之暗面成为国产大模型新星。2023年10月,清华大学杨植麟及其AI团队“月之暗面”发布了Kimi,拥有优秀的长文本处理能力,可处理20万汉字输入。同时,利用LongContext可以大幅减少fine-tune的成本,实现模型应用的“多、快、好、省”。例如可以先用5万字定制一个模型的能力,剩余还有大量文字窗口,也足够日常交互使用。而fine-tune需要构造数据并训练,时间较长且需要较高的复杂度,单位token的成本也更高。公司选择用LongContext方式来解决90%的问题,更好向前向后兼容,也成为公司最高优先级的技术突破方向。 “大海捞针”测试验证了Kimi长文本能力。长文本能力是实现人类与AI之间无损理解的基础,它使AI可以更准确地理解人类的复杂、感性思维,从而在多种应用场景中更有效地服务于人类。根据近一年全球各个大模型迭代方向,上下文窗口的“长文本”再持续升级。其中,在文本持续变长过程中,大型是否会忽略掉部分细节内容的问题一直是“长文本”能力的关键。因此有开发者进行了一项名为“大海捞针”的大模型长文本性能测试,即在文本中加入一句与该文本内容不相关的句子,测试大模型是否能通过Prompt把这句话准确 提取出来。月之暗面的工程师在2023年12月也进行了测试,选取模型为Kimichat(支持20万汉字输入),GPT-4Turbo(支持128K上下文窗口),Claude2.1(支持200K上下文窗口)。根据测试结果,Kimichat在“大海捞针”中的表现明显好于GPT-4Turbo和Claude2.1. 图:Kimi“大海捞针”实验表现 资料来源:MoonshotAI,国信证券经济研究所整理 图:GPT-4Turbo“大海捞针”实验表现 资料来源:MoonshotAI,国信证券经济研究所整理 •Kimi通过以下几个核心策略实现了区别于市场的独特定位和快速增长: 用户体验中心化:Kimi把用户体验作为产品开发和优化的核心,通过细致了解用户需求,提供流畅、直观的使用体验,提升用户满意度和忠诚度; 数据驱动的优化:利用用户行为数据,Kimi采用数据驱动的方法持续迭代产品功能,快速适应市场变化,保持技术和服务的领先优势; 创新的分享机制:引入分享功能增强用户互动,同时利用用户生成的数据和反馈优化模型,形成正向的数据循环,提高模型性能和用户体验。 专注核心功能优化:专注于提升核心功能如视频高清化等,满足用户特定需求,通过AI技术与用户体验的结合,打造差异化竞争优势。 避免过度扩张:Kimi选择专注于现有产品的持续优化,避免过度扩张产品线以确保产品和服务的高质量标准。 •国产大模型在算力受限的背景下能表现如此优秀,主要是因为Kimi实现了AI产品发展中三个关键的scaling要素:模型、人才和用户。 模型Scaling:Kimi通过持续优化其A1模型,不断增强模型的处理能力和应用范围,成功地提升了产品的核心竞争力。这种模型的scaling不仅涉及到算法的改进和优化,还包括对大数据的处理能力和学习效率的提升,确保模型能够处理更复杂的任务,满足更广泛的用户需求。 人才Scaling:注重人才的招聘和培养,扩展人才密度,这对快速推出产品至关重要。 用户Scaling:Kimi选择专注于c端市场,致力于开发能够覆盖广大用户需求的通用产品,而不是局限于某个B端的垂直领域。这种策略使Kimi能够吸引到足够大的用户规模,通过规模化的用户反馈进一步优化产品,形成了良好的用户增长和产品改进的正向循环。 图:Kimi可以两分钟读完500份简历,筛选员工 资料来源:国信证券经济研究所整理 图:Kimi可以读取英伟达报告,并分析财报历史 资料来源:国信证券经济研究所整理 •Kimi优秀的性能可以带动多个产业的发展。 阅读和剧本创作中的应用:Kimi的长文本处理能力在阅读和剧本创作领域展现出了深化内容与创新的潜力。它能够为小说和剧本等提供全书总结、剧本评估等高质量服务,这样不仅大幅提升了内容制作的效率,也极大丰富了用户的阅读体验。 游戏行业的互动升级:Kimi的长文本能力可用于生成复杂剧情和长篇人机对话极大丰富了游戏的互动性和沉浸感。 此外,Kimi的长文本技术突破使得其应用场景从长文章分析扩展至AI陪伴和AIAgent,如扮演小说中的角色或完成专业领域的特定任务。 •这一变化为AI在娱乐教育、专业服务等领域的深入应用开辟了新的可能性。Kimi的发展吸引了多方企业的合作,涉及内容审核、数据训练和行业应用等多个环节。这些合作促进了AI技术的实际应用,同时为各合作方带来了增值机会。 图:接入MoonshotAI开放平台内测的应用 资料来源:国信证券经济研究所整理 •OpenAI发布Sora大模型,通过Patches和ScalingTransformers革新视频生成技术。 多模态融合与Patches技术:OpenAl通过将视觉数据转换为Patches的方法,仿照语言模型中token的应用,实现了文本多模态的统一,涵盖了代码、数学和自然语言等多种形式。Patches作为一种高效且可扩展的表示方法,在生成视频和图像的模型训练中展现了其独特价值。 通过时空Patches高效生成视频:OpenAl创新性地开发了一套减少视觉数据维度的网络技术,这项技术可以把原始视频变成一个既在时间上也在空间上被压缩的潜在格式。Sora模型正是在这个压缩后的潜在空间中接受训练,从而能够生成新视频。为了将这些潜在的视频表示重新转化为清晰的图像,OpenAl还专门训练了一个解码器模型。通过对输入视频进行压缩并将其分解为一系列的时空Patches,这些Patches便成了Transformer模型的输入单位。这种方法使得Sora模型能够处理不同分辨率,持续时间和宽高比的视觉内容。在生成视频时,OpenAl能够通过在特定的网格中排列这些随机初始化的Patches,从而有效控制生成视频的大小和形状。这一策略同样适用于图像处理,因为可以将图像看作是静态的单帧视频。 Sora采用ScalingTransformer提升模型效率:OpenAl通过应用ScalingTransformers的技术,成功地扩展了视频生成模型的能力。ScalingTransformers是指一系列旨在提高Transformer模型规模和效率的技术和方法,以便处理更大的数据集、更复杂的任务或在更大规模上运行,同时提高性能。在使用固定的初始条件(种子)和输入数据进行视频样本的训练过程中,OpenAl展示了通过增加训练过程中的计算量(例如,使用更多的计算资源或进行更多次的训练迭代)可以显著提高生成的视频样本的质量。 图:Sora根据提示词生成视频 资料来源:OpenAI,国信证券经济研究所整理 图:Sora根据提示词生成视频 资料来源:OpenAI,国信证券经济研究所整理 •Sora核心优势在于强大的语言理解能力和一致性。 强大的语言理解:Sora引入了先进的字幕生成技术,借鉴DALL·E3的重字幕(re-captioning)方法,为视频自动生成富有描述性的字幕。这一步骤不仅提升了视频与文字之间的匹配度,还极大改善了视频的整体品质。此外,通过GPT将简短的用户指令prompt转化为详尽的描述,Sora能够精确地按照用户的需求创造视频,显著提高了生成视频的准确度和质量。 以图像和视频作为提示生成视频:Sora的功能不限于将文字提示转换成视频它还能够处理图像或已有视频等多种类型的输入。这种能力让Sora成为一个应用广泛的编辑工具,能够轻松完成包括制作无缝循环视频、将静止图片变为生动动画,以及对视频进行前后时间轴的扩展等多项任务。0penAl通过展示基于DALL·E2和DALL·E3技术生成的示例视频,展现了Sora在图像和视频编辑方面的强大能力和广阔应用前景。 灵活的视频扩展技术:Sora使用了基于Transformer架构的扩散模型,可处理多种类型的输入数据,并能够在视频时间线上添加或修改内容。Sora能利用如SDEdit这样的技术,在没有任何预设样本的情况下,改变视频中的风格或背景环境。这意味着用户可以更自由地定制他们的视频内容,不仅限于内容的创建,还包括对视频风格和环境的个性化调整,增强了视频编辑的灵活性和创造性。 出色的适应能力:Sora拥有强大的视频生成和调整能力,能够应对不同分辨率和屏幕比例的需求。无论是宽屏格式(1920x1080像素)还是竖屏格式(1080x1920像素),Sora都能够自如地处理,确保生成的视频内容能够完美匹配不同设备的显示需求。此外,在进行高清视频内容创作前,Sora能够迅速制作出低分辨率的视频原型,这一点对于加速创作过程和优化内容设计来说非常有用。简而言之,Sora使得视频制作变得更加灵活和高效,可以根据不同的显示设备和内容需求灵活调整视频规格。 场景和物体的一致性和连续性:Sora能制作出视角多变的视频,使得角色和场景的三维移动看起来更自然。它还能有效解决物体被遮挡的问题。传统模型在追踪视野外物体时常常遇到困难,但Sora通过同时预测多帧内容,可以保证即使主体暂时消失在画面中也不会影响其一致性。 OpenAI新一代模型能力有望大幅提升 •SamAltman透露新一代大模型相关进展,模