您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华东政法大学]:人工智能通用大模型(ChatGPT)的进展、风险与应对 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能通用大模型(ChatGPT)的进展、风险与应对

人工智能通用大模型(ChatGPT)的进展、风险与应对

人工智能通用大模型(ChatGPT)的进展、风险与应对发布单位:华东政法大学政治学研究院华东政法大学人工智能与大数据指数研究院华东政法大学政治学研究院 01通用大模型的近期进展目录03通用大模型的治理风险评估04通用大模型的风险应对策略02各国通用大模型的能力比较华东政法大学政治学研究院 通用大模型的近期进展01华东政法大学政治学研究院 1通用大模型的近期进展1 通用大模型的近期进展大模型的内涵与特征大模型的发展历程运行机制三大特征预训练模型的发展历程多模态预训练模型“大模型”和“小模型”协进平台化与简易化并进通用化与专用化并行大模型的发展趋势44544/55华东政法大学政治学研究院 大模型的内涵与特征1.1•大模型是指容量较大,用于深度学习任务的模型,通常具有海量的参数和复杂的架构。•大模型具有更好的通用性、精度和效率,可以通过预训练或其他方式在大型数据集上进行学习,再通过微调高效地处理计算机视觉、自然语言处理等复杂任务。预训练模型的运行机制1 通用大模型的近期进展Transformer(主要)、GAN、CNN以及RNN等架构通过海量数据进行预训练(通才)微调以应用不同场景(专家)解决各种复杂任务55545/55华东政法大学政治学研究院 大模型的内涵与特征1.11 通用大模型的近期进展涌现性扩展性复合性强化技术的融合解决传统AI的问题增强AI的能力有效集成自然语言处理等多个人工智能核心研究领域的多项技术,实现1+1>2的融合式涌现。大模型能够有效支撑智能终端、平台、系统等产品应用落地,解决壁垒多、部署难等问题。在海量通用数据上预训练以具备多种基础能力,摆脱传统人工智能能力碎片化、作坊式开发的局限。66546/55华东政法大学政治学研究院 大模型的发展历程1.21 通用大模型的近期进展单语言预训练模型多语言预训练模型多模态预训练模型能够处理自然语言,源于早期的词嵌入(wordembedding)的工作。具备多样化的基础语言能力,开始分别处理多种自然语言任务,如机器翻译、问答系统、情感分析等。以多语言训练模型为核心,进行文字、图片、视频的同步转化,实现处理多任务的目标。77547/55华东政法大学政治学研究院 多模态预训练模型视觉文本语音······理解式任务生成式任务1.2大模型的发展历程1 通用大模型的近期进展•多模态预训练模型:人工智能如何理解世界?处理多任务应用领域进展医疗深度多任务学习能够应用于医学影像分析中金融同一海量数据的多任务处理工业Multi-Task经典模型结构;全空间多任务模型ESMM教育多模态与多任务预训练模型的结合应用8/55华东政法大学政治学研究院 1 通用大模型的近期进展发展趋势:“大模型”和“小模型”协进1. 算力要求过高2. 显存占用过大1. 推理增速有限2. 训练时长增加1. 经济成本激增2. 能源消耗剧增模型量化模型剪枝知识蒸馏减少信息泄露风险降低运行碳排放量参数共享低秩分解增强模型抗攻击性大模型的限度模型压缩技术小模型的好处1.39/55华东政法大学政治学研究院 1 通用大模型的近期进展发展趋势:“大模型”和“小模型”协进大模型小模型借助知识蒸馏等技术,大模型的能力可以传给小模型改进知识蒸馏等技术,大模型一次可以产出多个小模型利用小模型作为Teacher,可以帮助大模型快速收敛如何实现大模型和小模型的联动和互助作为样本价值判断模型,小模型可以帮助大模型快速学习1.310/55华东政法大学政治学研究院 1 通用大模型的近期进展发展趋势:通用化与专用化并行表征学习单模态多模态迁移学习多任务处理多模态编码统一模型框架1. 从算法只能处理一种模态到可以处理多种模态2. 从算法仅能基于一种模态学习并只能应用于该模态到可以学习并应用于多种模态1.311/55华东政法大学政治学研究院 1 通用大模型的近期进展发展趋势:通用化与专用化并行●统一架构:使用统一的模型架构,并采用相同的学习模式●统一模态:构建可以适用于多种模态的通用词表●统一任务:将所有任务统一成序列到序列任务通用预训练专用领域预训练业务场景应用应用需求基础框架技术落地反哺技术1.312/55华东政法大学政治学研究院 1 通用大模型的近期进展发展趋势:平台化与简易化并进模型开发场景适配推理部署全能、简易开发服务平台开发工具微调工具部署工具大模型和小模型无缝联动能力自适应分布式推理能力自动化压缩能力加密部署能力便捷微调能力低参数调优能力数据增强和清洗能力并行计算能力存储优化能力自适应分布式训练能力弹性容错训练能力1.313/55华东政法大学政治学研究院 各国通用大模型的能力比较02华东政法大学政治学研究院 2各国通用大模型的能力比较2 各国通用大模型的能力比较美国目前通用大模型的发展现状中国对大模型相关领域的布局情况其他国家大模型技术的发展情况发展差距为何中美之间会存在如此差距?制度环境技术配套原创能力引言:各国通用大模型的技术进展15/55华东政法大学政治学研究院 •C h atGP T(GPT,Gen erativ e P re-train ed Tran s f o rme r,生成预训练转换器)的出现反映出了人工智能发展的新趋势,即AI正在从感知智能向认知智能快速发展。•美国作为人工智能发展领域的前沿国家,其拥有一系列具备充足技术和资金资源的公司和实验室,如谷歌、微软、Op en AI等。•中国作为人工智能领域发展的重要参与者,中国正在加快其在通用大模型领域的投资与研究。例如,百度、腾讯、阿里、科大讯飞等大型科技公司正在加速开发该领域的技术。2引言:各国通用大模型的技术进展2 各国通用大模型的能力比较16/55华东政法大学政治学研究院 •美国目前的科技巨头公司,如谷歌、微软、亚马逊、M et a等都在通用大模型上进行了进一步的布局与投资。•S tab ility AI等AI初创公司同样表示将积极布局A IG C、C h atGP T等相关技术和产业。2.1美国目前通用大模型的发展现状2 各国通用大模型的能力比较模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性ChatGPTOpenAIGenerative Pre-trained Transformer 3.5千亿级3640 PetaFLOPs per day支持连续对话、可质疑、主动承认错误、加入RLHF训练范式文本编辑、编程、翻译、算术无法进行网页搜索、黑箱问题Claude(封测)Anthropicconstitution-al AI520亿—最大化积极影响、避免提供有害建议、自主选择、加入RLAIF训练范式较ChatGPT文本编辑更长且自然较ChatGPT代码推理更弱Bard(内测)谷歌LaMDA1370亿较ChatGPT算力需求更低可以根据最新事件进行对话、更负责任将加入ChromeOS为搜索引擎犯事实性错误17/55华东政法大学政治学研究院 •在人工智能大模型领域,美国各巨头科技公司均有相关的技术资源。•整体而言,目前C h a tG P T的表现最为优异。即便是谷歌的B a rd在实际表现上似乎也逊于C h atGP T。2.1美国目前通用大模型的发展现状2 各国通用大模型的能力比较模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性BlenderBot3MetaOpen Pre-trained Transformer1750 亿—具备指令微调,可以改善其对未见任务的零样本和少样本泛化能力生成创意文本、解决基本数学问题、回答阅读理解问题全部访问权限受限制Megatron-Turing微软英伟达Transformer语言模型5300亿—高质量的自然语言训练语料库阅读理解、常识推理、词义消歧被ChatGPT反超18/55华东政法大学政治学研究院 •继Op en AI发布C h atGP T大模型之后,中国的各科技公司纷纷加入了大模型开发和应用的队伍。例如、腾讯、阿里、百度、科大讯飞等科技巨头公司均有跟进大模型的研发与应用。•对目前国内大模型发展而言,我们与国外的差距重点不在模型,而在算力。2.2中国对大模型相关领域的布局情况2 各国通用大模型的能力比较模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性文心一言(内测)百度基于百度知识增强大模型ERNIE 3.0 2600亿较ChatGPT算力需求低生成式搜索、跨模态理解与交互文本生成、将加入百度搜索引擎生成文本较短通义M6阿里Transformer Encoder-Decoder,ResNet Blocks10万亿能耗低国内首个AI 统一底座、借鉴人脑的模块化设计图像描述、视觉定位、文生图、视觉蕴含用户使用量较少混元腾讯基于MoE模型的Transformer Block万亿能耗较低成本较低、多模态理解、跨模态理解计算机视觉、自然语言处理、多模态内容理解、文案生成用户使用量较少19/55华东政法大学政治学研究院 •在人工智能大模型领域,中国公司的科技实力与国外公司存在一定差距。•中国企业目前正在努力将之前的发展重点(单一模型对应单一任务的专用大模型)调整为通用大模型。例如,百度2023年3月即将推出“文心一言”通用大模型。华为、阿里和腾讯也表示将加快通用大模型的落地。2.2中国对大模型相关领域的布局情况2 各国通用大模型的能力比较模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性紫东太初中国科学院自动化研究所基于昇思MindSpore框架千亿—全球首个视觉-文本-语音三模态预训练模型,同时具备跨模态理解与跨模态生成能力跨模态检测、视觉问答、语义描述、视频理解与生成项目落地难盘古(未上线)华为Encoder-Decoder架构千亿—模型具备极佳泛化能力,效率高跨模态检索、跨模态生成、内容生成等模块化20/55华东政法大学政治学研究院 2.3其他国家大模型技术的发展情况2 各国通用大模型的能力比较模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性YaLM俄罗斯YandexGenerative Pre-trained Transformer1000亿能耗较高采用Apache2.0授权,同时允许研究及商业免费使用生成和处理文本处于行业中下游Gopher英国DeepMindTransformer 语言模型2800亿能耗较低超大型的语言模型阅读理解、事实核查、有害语言识别应用范围较窄HyperCLOVA韩国Naver暂无公开820亿—提升韩语模型性能在韩语领域的文本生成多模态任务滞后Jurassic-1 Jumbo以色列A21 LabsMRKL模块化推理、知识和语言系统1780亿能耗较高兼顾神经模型和符号推理能力转述、从文本中提取数字尚未对输出的潜在有害内容进行过滤21/55华东政法大学政治学研究院 •通用大模型的研发已经成为各国新一轮技术竞争的核心领域。•中国企业在原创能力、技术配套、制度环境三个方面,存在一系列亟待解决的问题。•这些问题制约了中国通用大模型的进一步发展,并导致中国与美国存在一定的技术差距。2.4发展差距:为何中美之间会存在如此差距?发展环境技术实力原创能力2 各国通用大模型的能力比较22/55华东政法大学政治学研究院 2.4发展差距:原创能力核心类型具体表现形成原因原创能力缺乏冒险精神在风险技术的投入上倾向于复制和追随缺少创新的社会文化学生缺乏独立思考和批判性思考试错空间小过快的竞争和成果产出节奏压缩企业的创新时间人才不足具有丰富经验的前沿人才不足2 各国通用大模型的能力比较23/55华东政法大学政治学研究院 2.4发展差距:技术配套核心类型具体表现形成原因技术配套关键技术缺乏进一步突破在关键的人工智能算法上(算法透明度、鲁棒性等)存在痛点硬件基础设施不足外部制裁限制了中国高性能芯片的研发和生产数据质量不足中文语言的学习难度较大;外部数据的获取难度大内容生成的多样性不足算法模型与中文语境之间的匹配有待调试和完善2 各国通用大模型的能力比较24/55华东政法大学政治学研究院 2.4发展差距:制度环境核心类型具体表现形成原因制度环境知识产权保护不足对既有权利人