AI智能总结
ChatGPT横空出世,OpenAI引领进入大模型时代 ChatGPT引发AI热潮,大模型赋能千行百业,人工智能迎来“iPhone”时刻。 2022年底ChatGPT横空出世,其在理解人类意图、思维链推理、零样本下处理问题的能力优异。2023年3月大模型GPT4发布,性能进一步增强,并拥有多模态能力可实现“看图说话”。大模型能力来源于几个方面:大参数量带来能力的“涌现”;海量的数据预训练带来模型基础能力;指令微调解锁的特定领域能力;基于人类反馈的强化学习带来的与人类“对齐(沟通)”的能力。类似的范式被广为传播,诸多科技巨头纷纷推出自己构建的大模型,并且将多模态作为目标。大模型如火如荼发展,带来应用端的百花齐放,在传媒、游戏、电商、汽车等诸多行业大模型广泛赋能,人工智能迎来“iPhone”时刻。 大模型赋能自动驾驶,算法、数据闭环、仿真全面受益 算法迭代和数据驱动有待完善,长尾问题处理成为关键。驾驶环境纷繁复杂,罕见的长尾场景识别和处理成为制约自动驾驶发展的主要瓶颈。行业致力于建立优秀的算法框架和完善的数据闭环体系及仿真体系,让模型成为见多识广的“老司机”。算法端逐步从基于规则逐步走向基于神经网络,从模块化部署走向端到端感知决策一体化。数据端标注成本、仿真平台的可用性亦存在难点。 大模型有效赋能自动驾驶,数据闭环、仿真、算法全面受益。数据闭环方面,大模型有助于玩家实现更好的数据挖掘和管理效果,提升数据利用效率,同时通过自动标注大幅降低成本。仿真方面,生成式大模型可助力生成特定的场景,加速算法成熟。在算法方面,感知算法中云端的大模型可作为车载端模型的“老师”通过“蒸馏(教授)”帮助小模型实现更优性能。规控算法中玩家通过搭建行业自动驾驶大模型,来实现城市导航辅助驾驶以及场景脱困等功能。在端到端的自动驾驶算法方面,大模型可实现感知决策一体化集成,并助力端到端算法的训练。 自动驾驶渐行渐近,行业玩家迎广阔发展空间 科技巨头有望构筑自动驾驶行业“安卓”,技术鸿沟快速缩小。特斯拉全栈自研的自动驾驶闭环体系,构成自动驾驶行业的“IOS”,海量的车队建立数据壁垒,其他玩家难以复制。而大模型时代,第三方科技巨头的加入有望通过提供强大工具链形成自动驾驶行业的“安卓”,帮助整车厂构建自己的自动驾驶算法和数据闭环系统,同时依靠大模型的数据生成能力缩小与头部玩家在数据领域的差距。 此外产业链加速分工合作亦将带来自动驾驶成本下降,推动自动驾驶渗透率进一步提升,产业链玩家均会充分受益。 重点关注:德赛西威、经纬恒润、华阳集团、北京君正、晶晨股份、美格智能、均胜电子、华测导航、瀚川智能、炬光科技、源杰科技、长光华芯 风险提示:技术发展进度不及预期、市场需求不及预期。 1、OpenAI引领,人工智能进入大模型时代 1.1、ChatGPT横空出世,引领人工智能新浪潮 人工智能历经多年发展,在诸多领域超越人类。自1956年8月达特茅斯会议上“人工智能”概念诞生以来,行业几经起落不断发展壮大。临近新千年的1997,IBM深蓝计算机打败国际象棋大师卡斯帕罗夫成为首台打败国际象棋世界冠军的电脑。 2010年,谷歌宣布自动驾驶汽车计划。2012年卷积神经网络AlexNet在大规模视觉识别挑战赛中以比第二名低10.8个百分点的错误率夺冠,引发轰动,开启了深度学习黄金时代。2016年DeepMind公司的AlphaGo以4:1大比分战胜当时世界冠军李世石,人类将围棋冠军也让与计算机,掀起人工智能新一轮热潮。多年以来,像计算器超越人类的计算能力一样,人工智能在越来越多领域超越人类,并被应用到千行百业,未来将继续在更多的领域崭露头角,为人类赋能。 图1:达特茅斯会议开启人工智能发展之路 图2:视觉识别领域AI在2015年超越人类 图3:ChatGPT引领人工智能新范式 ChatGPT横空出世,再次引发人工智能热潮。2022年11月,ChatGPT横空出世,作为一种应用在对话场景的大语言模型,它可以通过更贴近人的方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求,同时拥有惊艳的思维链推理能力和零样本下处理问题能力。在理解人类意图、精准回答问题、流畅生成结果方面远超人类预期,几乎“无所不能”,引发网络热潮。据瑞银数据,ChatGPT产品推出2个月后用户数量即过亿,而上一个现象级应用TikTok达到1亿用户花费了9个月时间。微软将ChatGPT整合到其搜索引擎必应中后,在1个多月的时间内让必应日活跃用户数过亿。 图4:ChatGPT可完美实现用户的需求甚至可输出代码 图5:ChatGPT用户数2个月过亿超越TikTok GPT-4能力进一步提升,安全性显著增强。OpenAI在当地时间2023年3月14日发布了GPT-3.5(ChatGPT基于GPT3.5开发)的升级版GPT-4,性能全面超越ChatGPT。其具备多模态能力,可以同时支持文本和图像输入。支持的文本输入数量提升至约32000个tokens,对应约2.5万单词。性能方面,(1)理解/推理/多语言能力增强,在专业和学术考试中表现突出,全面超越GPT3.5,通过了统一律师考试的模拟版本,分数在考生中排名前10%。(2)理解能力显著增强,可以实现“看图说话”,甚至能够理解一些幽默的图片笑话。(3)可靠性相比GPT3.5大幅提升19%。(4)安全性指标相比GPT3.5有显著提升,对不允许和敏感内容的错误反应显著下降。 图6:GPT-4的性能显著强于上个版本 图7:GPT4在推理和逻辑能力上大幅提升 图8:GPT-4可理解部分图片笑话 图9:GPT4准确度相比之前的版本大幅提升 图10:对不被允许和敏感的内容的错误响应显著下降 图11:GPT4的多项能力超越人类平均水平 1.2、算法是人工智能的基石,Transformer逐步成为主流 1.2.1、始于NLP,延伸至各领域,Transformer在人工智能行业展现统治力 算法是构成模型的基石,循环神经网络(RNN)和卷积神经网络(CNN)曾为自然语言处理和图像处理的领域主流算法。早年人工智能领域常见的算法包含循环神经网络(RNN)和卷积神经网络(CNN),其中循环神经网络每个环节的输出与前面的输出有关(有“记忆”),因此可更好的处理序列问题,如文本、股市、翻译等。 卷积神经网络则以图像识别为核心,通过卷积核进行窗口滑动来进行特征提取,进而实现图像识别等功能。但两类算法均存在自身的问题,循环神经网络并行度低,计算效率受限,同时输入的数据较为庞大时,早期的记忆容易丢失。而卷积神经网络由于需要卷积核滑动来提取特征,面对距离较远的特征之间的关系识别能力有限。 图12:循环神经网络适合处理序列信息 图13:卷积神经网络可实现图像处理等任务 Transformer结构性能强大一经推出迅速得到认可。Transformer在谷歌著名的论文“Attention is all you need”首次出现,其优点在于并行度高,精度和性能上均优于传统神经网络。该算法采用编码器解码器(Encoder-Decoder)架构,编码器接受输入并将其编码为固定长度的向量,解码器获取该向量并将其解码为输出序列。该算法早期被应用于翻译领域,相比传统RNN只关注句子相邻词之间的关系,Transformer会将句子中的每个字与所有单词进行计算,得出他们之间的相关度,而确定该词在句子里更准确的意义。因此Transformer拥有更优的全局信息感知能力。 图14:Transformer采用编码器和解码器的组合,有优异全局信息感知能力 始于NLP,逐步延伸到各大应用领域。在计算机视觉领域,早年卷积神经网络(CNN)几乎占据统治地位,Transformer出现后,大量基于Transformer及CNN和Transformer算法的结合体涌现 ,诞生了最初应用在图像识别领域的Vision Transformer,应用在目标检测领域的DETR,应用在分割领域的SETR等等诸多算法。 此外在其他领域,Transformer也开始崭露头角,观察Transformer有关的论文,几年之内,其所覆盖的领域迅速泛化,涵盖文本、图像、语音、视频等。 图15:Transformer在计算机视觉领域形成诸多路线 图16:Transformer应用领域迅速泛化 1.2.2、大语言模型多基于Transformer构建,Decoder-Only系列占优 大语言模型形成三大类别,Decoder-Only系列占优。出色的性能让Transformer架构已经成为各种大语言模型的主干,前文提到Transformer结构由编码器和解码器构成,而单独基于编码器或者解码器均可构建大语言模型,因此业内形成三类大模型路线:Decoder-Only(仅解码器)、Encoder-Only(仅编码器)、Encoder-Decoder(编码器-解码器)。其中采用Encoder-Only的有谷歌的Bert、微软的Deberta等,其采用“完形填空”式的预训练,再根据所需的应用领域用少量标注过的数据进行Fine-tuning(微调)。采用Decoder-Only的有GPT等,其采用“预测下一个单词”的方式进行预训练,之后通过指令微调等实现特定领域功能的激发。此外也有采用Encoder-Decoder架构的模型如谷歌的T5、Meta的Bart、清华大学的ChatGLM等。 值得注意的是当GPT3推出后,大量基于Decoder-Only的算法涌现出来,成为主流的大模型算法构建方式。 图17:GPT模式采用Decoder-Only的算法 图18:Bert模式采用Encoder-Only算法 图19:大语言模型拥有三大技术方向,类GPT模式的技术路线近年成为主流 1.3、大模型+预训练+人类反馈微调,大模型蓄势待发 1.3.1、探求ChatGPT的能力来源,寻找构建大模型的有效方法 GPT的能力来源于预训练+指令微调+基于人类反馈的强化学习。ChatGPT的前身为GPT-3,基于GPT-3,OpenAI对大模型进行了诸多探索,开发出了多个可应用于不同领域的模型。对比这些不同的模型,在初代的GPT-3上即展现出语言生成、情景学习(in-context learning,遵循给定的示例为新的测试应用生成解决方案)、世界知识(事实性知识和常识)等能力,而这些能力几乎都来自于大规模的预训练,通过让拥有1750亿参数的大模型去学习包含3000亿单词的语料,大模型已经具备了所有的基础能力。而通过指令微调(Instruction tuning),帮助大模型“解锁”特定领域的能力如遵循指令来实现问答式的聊天机器人,或泛化到其他新的任务领域。而基于人类反馈的强化学习(RLHF,Reinforcement Learning with Human Feedback)则让大模型具备了和人类“对齐”的能力,即给予提问者详实、公正的回应,拒绝不当的问题,拒绝其知识范围外的问题等特性。 图20:GPT版本和能力演进路径——各类训练、微调方法下形成最终ChatGPT 1.3.2、大参数+海量数据预训练+基于人类反馈的微调构成打造大语言模型的要素 大参数量变带来质变,“涌现”现象带来大模型能力跃迁。当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长呈现线性关系,而当参数量上升到一定程度,模型的性能会突然跃迁,打破比例定律,实现质的飞跃,这被称为模型的“涌现”能力。诸多研究发现,大参数量,配合海量数据训练,大语言模型在In-context learning(情景学习)、Instruct following(指令遵循)、Chain ofthought(思维链,即可逐步解决问题)方面会出现“涌现”现象。因此模型拥有较大参数量是其拥有超乎想象性能的前提。 图21:模型规模到达一定程度会出现“涌现”现象 海量数据预训练不可或缺。参数量庞大的大语言模型需要大量覆盖广泛内