您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告 - 发现报告
当前位置:首页/行业研究/报告详情/

2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告

2024-01-16-未知机构向***
2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告

2023 年深度行业分析研究报告 大模型的竞争格局演绎的关键因素01独立的模型团队—月之暗面、清华GLM、百川智能02互联网大厂的模型和应用进展—腾讯、字节、百度、阿里03目录风险提示043 图1:不同公司/组织/院校 近三年top-100 AI发文数 图2:海外SuperGlue模型榜单排名(截至2023年12月) 资料来源:Sergi Castella i Sapé,《Must read: the 100 most cited AI papers in 2022》,Zeta Alpha,2023年3月2日,国信证券经济研究所整理 资料来源:SuperGlue,参考文献:Z Du、Y Qian等,《GLM: General Language Model Pretraining with Autoregressive Blank Infilling 》,Computation and Language (cs.CL),2022,arXiv:2103.10360,国信证券经济研究所整理大模型技术本质上来源于科研创新与技术积累•海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。•国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。•国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。4 基于开源大模型框架进行优化调整、应用创新较易落地•OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例:Ø基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。Ø大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。图3:Baichuan-7B对LLaMA框架进行优化后的性能提升 图4:在LLaMA上进行的研究工作的演化图 资料来源:GitHub BaiChuan主页,国信证券经济研究所整理 资料来源:Wayne Xin Zhao、Kun Zhou等, 《A Survey of Large Language Models》,Computation and Language,2023,arXiv:2303.18223,国信证券经济研究所整理5 图5:各大模型训练数据集对比 图6:Scaling Law模型性能与模型参数、数据集和训练计算量成幂律关系 资料来源:Wayne Xin Zhao、Kun Zhou等, 《A Survey of Large Language Models》,Computation and Language,2023,arXiv:2303.18223,国信证券经济研究所整理 资料来源:OpenAI官网,国信证券经济研究所整理•有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-500B token,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。•大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据Scaling Law,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。高质量训练数据促进大模型技术的提升,但优质数据集稀缺6 图7:各大模型训练数据集对比 图8:AI技术下数据分析各领域的增量 资料来源:各公司官网、国信证券经济研究所整理 资料来源:Karl Keirstead等,《AI Survey of Enterprise Execs–Shaping the AI Narrative Into 2024》,U.S.Software,2023,国信证券经济研究所整理AI技术将更大范围的数据带入分析领域,关注稀缺内容平台•AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和 ML/AI Ops 领域(Databricks、AWS Bedrock、Weights&Biases)。•内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。 随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。公司模型参数量数据规模阿里巴巴M610T 1.9 TB图像和 292GB 文本智源研究院悟道2.01.75T4.9T腾讯混元1T2T百度文心260B45TB中科院自动化所紫东·太初100B1.42TB中文智谱华章ChatGLM31.5B、3B和6B百川智能百川2B/7B/13B2.6T上海人工智能实验室书生7B/20B2.3T(InternLM-20B)科大讯飞星火170B数十亿的语言数据集商汤科技InternLM1,04B1.6 万亿 token 春田知韵(抖音)豆包7B1300亿阿里云通义千问7B3万亿tokens华为盘古200B40TB中文文本、3B图像7 图9:近年来现有(大于10B)大语言模型的时间轴 图10:北美各大企业的AI应用行业分布 资料来源:Wayne Xin Zhao、Kun Zhou等, 《A Survey of Large Language Models》,Computation and Language,2023,arXiv:2303.18223,国信证券经济研究所整理 资料来源:Karl Keirstead等,《AI Survey of Enterprise Execs–Shaping the AI Narrative Into 2024》,U.S.Software,2023,国信证券经济研究所整理•C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AI Agent满足用户的高度定制化和长尾需求。从大模型的迭代发展,我们看到底层技术基于Transformer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧流量入口的集成和统一。•B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在Huggingface上用开源模型改造。大模型的竞争格局猜想—C端集中,B端差异化竞争8 •通过先进的闭源实现商业化,通过开源前代模型构建生态:OpenAI的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而OpenAI凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。•通过AI Agent的形态去构建流量入口:OpenAI在AI Agent与流量入口领域有许多尝试,比如插件生态、GPTs。GPTs出现打破过去的软件孤岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AI Agent必须要对个人有全链路的信息处理能力,当前GPTs实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪费。OpenAI商业模式:大模型技术领先,积极尝试构建生态壁垒图11:OpenAI模型演进图 图12:OpenAI GPTs应用 资料来源:OpenAI官网,参考文献:Wayne Xin Zhao、Kun Zhou等, 《A Survey of Large Language Models》,Computation and Language,2023,arXiv:2303.18223,国信证券经济研究所整理 资料来源:Gptshunter官网,国信证券经济研究所整理9DELL-E12021.01DELL-E22022.07DELL-E12023.09 图13:用于操作智能手机应用程序的多模态智能体框架概述 图14:多模态智能体框架在智能手机App操作中的多种应用 资料来源:Chi Zhang,Zhao Yang等,《AppAgent: Multimodal Agents as Smartphone Users》,Computer Vision and Pattern Recognition(cs.CV),2023,arXiv:2312.13771,国信证券经济研究所整理 资料来源:Chi Zhang,Zhao Yang等,《AppAgent: Multimodal Agents as Smartphone Users》,Computer Vision and Pattern Recognition(cs.CV),2023,arXiv:2312.13771,国信证券经济研究所整理AI Agent:成为生产环节的定制化辅助,带来人机交互的革新•AI Agent框架为大模型提供结构化思考方法,成为生产环节的重要辅助:大模型作为理解推理能力不断增强,软件生产进入低门槛、高定制化时代,面向用户的长尾、个性化需求,Agent框架可以打造每个知识工作者的AI助理。•AIAgent需要标准定义和模型能力进化,同时Generative UI可能带来人机交互方式的革新:当前大模型对连续的复杂推理问题包括对多模态信息的交叉处理仍有不足,需要用更复杂、结构化、多维度的数据来进一步学习。另一方面,Agent应用对当前的人机交互方式带来改变,演进成为同时适用于人类和AI操作的形式。•案例:Agent以类人的方式与智能手机应用进行交互,使用点击和滑动等底层操作来操作图形用户界面(GUI)。利用大型语言模型的视觉能力以类似人类的方式操作智能手机应用程序。在探索阶段,智能体与智能手机应用程序交互并从结果中学习,以创建一个全面的参考文档。在部署阶段,智能体利用这个文档汇编的信息来有效操作和导航应用程序。10 智能硬件“All in One”终端流量入口的抢占之路•AIGC将带来无限的内容生产与供给,进而颠覆当前的信息分发方式:a16z曾说过“芯片将计算的边际成本降到了零,互联