AI智能总结
TABLE OF CONTENTS目 录 了解大语言模型01 02 •1.1 LLM,大在何处•1.2 LLM的发展历程•1.3 LLM的核心应用场景•1.4多模态LLM02040205 训练大语言模型02 •2.1 Transformer网络架构•2.2预训练和微调•2.3筹备训练环境070808 了解GPT03 10 •3.1 GPT的优化•3.2 GPT的主要应用场景1012 简单易上手的Copilot04 •4.1生产力辅助•4.2创意工具•4.3开发辅助141615 总结05 18 了解大语言模型 擅长处理和生成自然语言类内容的大语言模型 (Large Language Model,LLM) 已成为人工智能 (AI) 技术领域的一个重要发展方向。LLM是一种基于深度学习技术的AI模型,可通过分析大量文本数据来学习语言的结构与规律,从而执行多种任务,如文本生成、语言翻译、情感分析等,目前已经在越来越多的领域实现了极为广泛的应用。 LLM,大在何处 大语言模型的“大”通常主要体现在三方面: 参数数量:参数是指模型内部的变量,决定了模型的复杂度和表示能力。参数多通常意味着模型能捕捉更复杂的模式和关系。 训练数据:LLM通常需要通过大规模文本数据训练,这些数据包含丰富的语言信息,可帮助模型学习更准确的语言表示。 计算资源:训练LLM通常需要大量算力,包括高性能GPU或TPU,以及分布式环境。 虽然近些年才逐渐兴起,但LLM并非新技术。早在20世纪90年代,就已经出现了以信息论和概率论为基础的统计语言模型。随着深度学习技术的诞生和崛起,以及计算机硬件算力飞速提升,这种模型变得愈加复杂,进一步催生出基于循环神经网络 (RNN) 和长短期记忆网络 (LSTM) 的自然语言处理技术。 2018年,基于Transformer的双向编码器表示技术 (BERT) 诞生,这标志着预训练语言模型时代正式到来。通过用大量文本进行预训练,然后围绕特定任务进行微调,BERT显著提高了多种自然语言处理 (NLP) 任务的性能。随后,OpenAI发布的GPT(Generative Pre-trained Transformer,生成式预训练Transformer) 系列模型及广为人知的ChatGPT,进一步将生成式AI技术带到了每个人面前。 生成式AI技术、NLP、GPT,这三者有何关系? 01生成式AI技术是深度学习的直子集,可通过学习大量训练数据,理解其内在模式和规律,然后根据这些模式和规律生成新的内容。生成式AI技术的应用范围非常广泛,包括图像生成、音乐创作、文本生成等。 02NLP是AI领域的一门学科,主要目标是让计算机理解和生成人类语言。NLP涵盖了从语法解析和词义理解,到情感分析和文本生成等一系列复杂任务。NLP的研究和应用催生了机器翻译、语音识别、情感分析等各种实用的系统和应用。 03GPT则是生成式AI技术的一种,它是目前处理NLP问题最先进的技术之一。尽管GPT最初是为处理NLP问题开发的,但其实也可用于生成图像、视频等内容。 总的来说,可以认为NLP是一个广泛的研究领域,生成式AI技术是一类技术,而GPT则是生成式AI技术在NLP领域的一种具体应用。 摘自《大语言模型原理、训练及应用 ( 基于GPT)》,机械工业出版社出版 LLM的核心应用场景 作为AI技术的重要分支,LLM的应用极为广泛,可覆盖几乎所有语言处理任务,目前该技术已经在多个应用场景发挥着至关重要的作用。一般来说,LLM在下列四大核心能力方面的表现尤为突出: 01 内容创作 在这些任务中,LLM通常要根据输入(如关键词、摘要、提示等)生成一段符合要求的文本。这个过程需要处理很多复杂问题,如信息组织、语句表达、逻辑推理等。通过训练,LLM模型可以学习这些问题的规则和模式,从而生成高质量文本。 02 摘要生成 使用LLM从较长的文本中提取关键信息并生成简洁摘要,主要目的是压缩信息,帮助用户快速了解文本主旨,节约阅读和理解原始文本所需的时间。 代码生成 基于对语言结构和编程语言的理解能力,通过训练学习大量自然语言文本和源代码数据,可以让LLM掌握编程语法规则、代码模式以及实现不同功能的典型方法,从而生成代码片段,甚至帮助软件开发人员完成更复杂的编程任务。 语义搜索 通过用海量文本数据进行预训练,让LLM模型学习语言的复杂结构和丰富的语义信息,从而捕捉到词汇的多种含义、上下文的细微差别以及语言的隐含关系。因为可以理解用户查询的深层含义,因此相比传统的基于关键词的搜索,LLM的语义搜索能提供更精准,相关性更高的搜索结果。 多模态LLM 随着LLM不断发展,它的能力已经远远超越了传统NLP领域,拓展到多模态场景的应用方面。多模态是指结合了文本、图像、声音等多种数据类型的处理能力,这种跨越使得LLM不仅能理解和生成文本,还能与图像、视频等非文本数据进行交互。不同感官形式的技术进步为人机交互和信息理解开辟了新的维度。 文生图 以DALL·E为代表的文生图是一种创新的应用。在这种技术帮助下,用户只需提供一段描述性文本,就能让LLM结合视觉生成模型创造出与描述文本相匹配的图像。这种能力在艺术创作、产品设计、教育等领域具有巨大潜力。此类技术的出现,不仅证明了LLM在文本处理之外的潜力,也为AI技术创意工作提供了一个令人兴奋的范例。 图片与视频理解 以CPT-4o为代表的LLM模型则在图像和视频内容的理解方面实现了巨大飞跃。GPT-4o的核心能力在于跨模态理解:即不仅能处理文本数据,还能解读视觉内容。这意味着GPT-4o可以接收图像或视频作为输入,并生成详细的描述,识别场景中的对象、动作、情感以及它们之间的相互作用。 例如,对于街头监控视频,CPT-4o能描述人物行为,识别可能的安全事件,甚至预测接下来可能发生的情况。 语音转文字 语音转文字是LLM的一个重要分支,它使得机器能将人类语音信息转换成书面文本。例如Whisper就是一个典型的例子,它可以利用深度学习和LLM模型实现高效准确的语音识别,并能充分考虑不同口音、方言以及语言之间的差异,从而在多样化的语音环境中保持高水平的识别准确性。 这样的技术可应用于多种场景,如会议记录、实时字幕生成、语音指令识别等,这些应用不仅有助于大幅提高工作效率,也能为听障人士提供便利。 视频生成 以Sora为代表的视频生成模型能根据文本指令创造出真实且富有想象力的场景视频,此类模型还能生成复杂的场景,例如多角色、特定类型的运动,以及与主题和背景相关的精确细节等。这就意味着,此类模型不但需要能理解用户在提示中要求的内容,还要能理解这些内容在物理世界中的存在方式。 训练大语言模型 早期的NLP任务大多采用RNN(循环神经网络)来处理,尤其是翻译和分类任务。RNN在这些应用中实现了较好的效果,但其弊端在于无法把模型做得很大,这导致模型的知识累积和推理能力都受到限制。为解决这些问题,Transformer网络应运而生,它天生支持大参数量,因此可以学到更多知识,同时也能很好地解决RNN训练效率低下的问题。 本节内容部分摘自《大语言模型原理、训练及应用 ( 基于GPT)》,机械工业出版社出版 Transformer网络架构 最基础的Transformer架构如下图所示。整个架构分为两大块:左半部分的Encoder( 编码器 ) 和右半部分的Decoder( 解码器 )。 简单来说,Transformer主要分为以下几个模块 ( 左图中由下往上看 ): 这些模块以类似搭积木的方式组合形成了多层Transformer网络。 预训练和微调 通常来说,预训练一个LLM往往需要投入极大的算力资源以及海量的高质量文本数据,训练过程通常需要数周甚至数月。相比之下,微调一个已经预训练好的模型所需的资源和时间显著减少,通常只需几小时到几天即可完成。 因此很多情况下普遍的做法就是在成熟的预训练模型基础上进行有针对性的微调,这样通常都可以取得不错的效果。那么我们还有必要进行预训练吗? 其实绝大多数下游任务是无法通过微调来解决的。微调成功的前提的是:被微调模型的训练语料所包括训练任务的种类,其本身和要微调的任务差距不大,最重要的是训练语料,要求预训练模型里面包含了微调训练所需要的知识。 然而生产环境中实际遇到的大多数问题可能都可归结于这几种情况:语言不匹配 ( 例如预训练模型是英文,微调任务是中文;遇到特定领域的专业词汇,如医疗、生物、金融领域 )。当一个训练任务无法解决上述的问题时,就不能只依赖微调,而是应该从预训练开始对模型进行训练。 筹备训练环境 硬件验证 在构建LLM模型的基础架构环境时,务必要确保所有硬件组件 ( 如网卡和GPU) 能够正常工作。这些组件的性能会直接影响模型训练和推理效率。 对于网络通信性能的验证,可以使用perftest。这是一套网络性能测试工具,可以对网络设备进行一系列测试,以确保网络传输的速度和稳定性。如果测试结果显示网卡性能达到预期标准,即可确认网络环境能支持大规模数据传输需求。 对于GPU验证,可利用NVIDIA Collective Communications Library(NCCL) 进行。NCCL提供了一系列通信原语,专为多GPU和多节点环境下的并行计算设计。NCCL测试可模拟训练过程中GPU之间的通信,以此检测GPU的并行处理能力和通信效率。 当这两个工具的测试结果均显示硬件性能达到预期,才能确信基础架构环境已完全准备就绪。这样,就可以放心训练和测试模型,而无需担心由于硬件问题导致的性能瓶颈或训练中断。 环境的选择 在考虑分布式训练环境时,主要会面临两个选项:本地服务器和云环境。本地服务器 ( 如NVIDIA DGX或HGX) 提供了强大算力,特别适合需要高性能计算资源的大规模训练任务。这些服务器通常配备顶级GPU,能提供极高处理速度和大量并行计算能力,从而显著缩短训练时间。然而这种选择的缺点也很明显。首先是成本问题,高性能服务器设备本身价格不菲;此外还需要考虑供电、机房托管以及持续运维成本。 相较而言,公有云环境则提供了一种更灵活且成本效益更高的解决方案。借助云服务提供商 ( 如Azure) 搭建的平台,用户可以按需轻松租用GPU强化的虚拟机,而无须担心硬件采购、维护和升级。这种按需服务模式不仅可大幅降低初始投资,还能根据项目需求的变化灵活调整计算资源,从而优化成本效率。 N系列 启用GPU的虚拟机 N系列是具有GPU功能的Azure虚拟机家族。GPU非常适合计算和图形密集的工作负荷,帮助客户通过高端远程可视化、深度学习和预测分析等方案来加速创新。 N系列针对特定工作负荷提供三种特定产品 / 服务 : NC系列专用于高性能计算和机器学习工作负荷。全新版本NCsv3配备NVIDIA Tesla V100 GPU。NDS系列专用于进行深度学习的训练和推理方案。该系列使用NVIDIA Tesla P40 GPU。全新版本NDV2配备NVIDIA Tesla V100 GPU。NV系列采用NVIDIA Tesla M60 GPU,支持功能强大的远程可视化工作负荷和其他图形密集型应用程序。 NCsv3、NCsv2、NC和NDs VM提供可选的InfiniBand互连,可实现向上扩展。 示例工作负载包括模拟、深度学习、图形呈现、视频编、游戏和远程可视化。 配备GPU的N系列Azure虚拟机可通过不同配置满足用户的AI模型训练等多样化需求 如果选择在Azure平台上搭建训练环境 :对于大规模分布式训练,建议使用ND系列Azure虚拟机;对于小规模微调或推理,可考虑使用NC系列Azure虚拟机。 了解GPT 早期的NLP任务大多采用RNN( 循环神经网络 ) 来处理,尤其是翻译和分类任务。RNN在这些应用中实现了较好的效果,但其弊端在于无法把模型做得很大,这导致模型的知识累积和推理