AI智能总结
Llama 2:升级迭代效果显著,有望加速应用端落地 2 0 2 3 . 7 . 3 0 分析师:闻学臣执业证书编号:S0740519090007 Llama2:最大规模70B,部分任务评分可媲美GPT-3.5和PaLM-540B 2023年7月19日,Meta发布了Llama2开源预训练大模型。该模型是Llama1的更新版本,在公开可用的数据集上进行训练。与LLaMA相比,预训练语料库的大小增大约40%,达到了2.0T。同时模型的上下文长度增加到了4k tokens,并采用了分组查询注意力机制(GQA,grouped-query attention)。 Llama 2有7B、13B、34B和70B的四个版本,在多项基准测试中表现优异。特别是在阅读理解和常识推理方面,70亿参数规模的Llama 2预训练模型的表现已经可以与当前顶尖的预训练语言模型GPT-3.5和PaLM-540B相媲美。 Llama 2-Chat是Llama 2的微调版本,经过了多轮微调和优化以适用于对话任务。Meta发布了该模型的7亿、13亿和70亿参数规模的变体。 高质量预训练:数据集包含2万亿tokens,英语语料占比近90% Llama 2的预训练过程持续约4个月,主要在Meta自建的AI研究超级计算集群(RSC)和内部生产集群上完成。所有模型训练总耗时约330万GPU小时。 Llama 2使用来自公开数据源的预训练数据,总计2万亿tokens,其中不包含任何Meta用户数据。预训练数据主要以英语为主,占比近90%,代码占比约8.4%,其次是德语、法语等其他语言的语料数据。 资料来源:Llama2:OpenFoundationandFine-TunedChatModels、中泰证券研究所 Llama2-Chat:基于预训练模型,采用RLHF和PPO等方法微调的对话模型 要将Llama 2应用于实际对话场景,仅仅预训练是不够的,需要使用人类反馈进行进一步微调来优化模型的有用性和安全性。Llama 2-Chat正是通过一系列微调方法进行优化得到的专门面向对话的语言模型。Llama 2-Chat通过应用监督微调(SFT)创建了Llama 2-Chat的初始版本。随后,该模型使用基于人类反馈的强化学习(RLHF)方法进行迭代优化,主要有拒绝采样(Rejection Sampling,RS)和近端策略优化(Proximal PolicyOptimization,PPO)。 图表:Llama2-Chat训练过程 监督微调(SFT):少量高质量数据可以更快地提升模型质量 Meta发现SFT的数据质量非常重要,但第三方SFT的数据的多样性和质量都不够高。因此Meta进行了信息收集,一共收集了27540个注释(annotation),并在其中排除了Meta用户的数据信息。 Llama2-Chat进行了两次有监督的微调。在微调过程中,每个样本都包括一个提示和一个回答。为了确保模型序列长度被正确填充,Meta将训练集中的所有提示和答案连接起来,并使用一个特殊的token来分隔提示和答案。 运用RLHF提升对话能力,训练了安全性和可用性两个奖励模型 在监督微调后的基础上,研究人员使用了基于人类反馈的强化学习RLHF进一步优化Llama 2-Chat: 1)收集超过100万个人类偏好反馈样本,让标注者对模型生成的不同回复进行比较和选择,得到他们的偏好判断。2)使用这些偏好数据训练专门的有用性奖励模型和安全性奖励模型,以自动评估对话回复的质量。3)使用PPO和拒绝抽样等强化学习算法,让语言模型在这些奖励模型的指导下逐步逼近人类的偏好。 Meta分别训练了安全性和有用性两个奖励模型。在基于Llama 2-Chat收集的内部测试集上表现最佳,其中有用性奖励模型在元有用性(Mega Helpful)测试集上表现最佳。同样,安全性奖励模型在Meta的测试集上表现最佳。总体而言,这两个奖励模型优于包括GPT-4在内的所有模型。 Helpness人工评估:以显著优势优于开源模型,Llama 2-Chat 70B与GPT-3.5相媲美 人工评估通常被认为是评判自然语言生成模型的黄金标准。Meta利用4000+个单次和多次的输入来比较开源模型和闭源模型的实用性和安全性。通过输入内容(事实内容、写作和内容生成、语言帮助、建议以及对话)产生输出内容,并人工判断两个模型输出的优劣性。Llama 2-Chat模型在单回合和多回合中都以显著优势优于其他开源模型。Llama 2-Chat 70B模型以60%+的胜率优于MPT-7B-chat。Llama2-Chat34B模型在与同等规模的Vicuna33B和Falcon40B模型的比较中具有超过75%的整体胜率。Llama 2-Chat 70B模型与ChatGPT相媲美。与GPT-3.5的竞争中,Llama 2-Chat 70B模型的胜率为36%,平局率为31.5%。Llama2-Chat70B模型以很大比例的胜率优于PaLM-Bison模型。 资料来源:Llama2:OpenFoundationandFine-TunedChatModels、中泰证券研究所 Safety人工评估:安全性优于所有开源模型甚至是GPT-3.5,且在多轮对话中表现突出 Meta根据安全类别收集了约2000条提示,要求评分者对模型进行安全违规判定。这些结果受到受到提示的限制、审查指南的主观性、内容标准以及个别评分者的主观性等影响。Llama 2-Chat的安全性优于所有开源模型甚至是GPT-3.5。Llama 2-Chat具有可比或更低的总体违规百分比,而ChatGPT和Falcon紧随其后,然后是MPT和Vicuna。多轮对话更容易引发不安全反应是模型测试中的普遍现象。尽管如此,与其他模型相比,Llama 2-Chat在多轮对话仍然表现良好。 开源模型评估:Llama 2 70B优于所有开源模型 Llama 2 70B模型优于MPT、Falcon等开源模型。Meta采用内部评估库,对Llama 1、Llama 2、MosaicMLPretrainedTransformer(MPT)model以及Falcon进行评估,评测领域有代码、常识推理、世界知识、阅读理解、数学、MMLU(大规模多任务语言理解评测基准)、BBH(BIG-bench的子集,仅包含目前模型表现无法超过人类的任务)和AGIEval(类人能力的基准测试)。SOTA结果均出现在Llama2测试中。 预训练模型评估:编程能力和算术能力突出 编程能力:在HumanEval和MBPP代码生成基准测试中,Llama2的表现总体优于Llama1、MPT以及Falcon。 常识推理:在HellaSwag、WinoGrande和Commonsense QA等常识推理测试中,Llama 2在部分任务上强于Llama 1,在全部任务上优于MPT和Falcon。 算术推理:在GSM8K和MATH数学测试中,Llama2表现出色,强于Llama1,遥遥领先于MPT和Falcon。 预训练模型评估:Llama 2 70B世界知识能力优于其他开源模型 世界知识:在NaturalQuestion和TriviaQA开放域问答测试中,Llama270B的表现优于其他模型,除在NaturalQuestion-0-shot被Faclcon40B超过。 预训练模型评估:综合表现突出,并在Llama 1基础上进步明显 综合表现:在MMLU多任务测试中,Llama2模型优于其他模型,尤其是Llama270B模型的表现遥遥领先其他模型;在AGIEval学科考试评测中,Llama270B在绝大部分学科上都强于其他模型,相比Llama1的结果有显著提升。 闭源模型评估:部分任务接近PaLM 2持平,与GPT-4仍存在一定的差距 除开源模型以外,Meta将Llama270B的结果与闭源模型进行比较。Llama270B在MMLU多任务测试和GSM8K数学测试上接近GPT-3.5,但在编码能力上存在显著差距。在TriviaQA和Natural Question开放域问答测试中,Llama 2的表现均超过PaLM,拥有接近PaLM-2-L的水准。但在GSM8K数学测试中,Llama2分数仍低于GPT-4和PaLM-2-L。 在BIG-BenchHard(BBH)测试中,Llama2的成绩接近PaLM。 投资建议和风险提示 Llama 2发布后,能够成为目前最有竞争力的开源模型。目前有部分海内外应用端厂商会选择使用Llama进行精调,再进行有针对性的应用部署。Llama 2发布之后,部分厂商可以基于Llama 2进行模型精调和部署,能够获得比之前模型更佳的表现结果。对于一些应用端厂商,在进行基础模型迭代后有望大幅提升应用端产品能力。我们认为应当更关注应用端公司,相关应用有望加速落地。 对于大模型而言,提升效果最重要因素依旧是数据质量。Llama 2相比Llama 1,除了常规扩大预训练的规模之外,最主要的就是对SFT使用的数据进行搜集,没有选择使用第三方的精调数据集。因此我们认为,应当更关注拥有高质量训练数据的模型厂商。 应当更加关注大模型尤其是开源模型的安全性。Llama 2模型训练了高质量的安全和可用性奖励模型,对模型的安全效果进行了RLHF约束。近期各国也陆续发布有关生成式人工智能的法律或监管规范。我们认为,在效果之外应当更加关注模型的安全性,重视相关安全应用厂商机会。 投资建议和风险提示 模型厂商:未来的格局将是基础大模型+行业/场景模型,建议关注科大讯飞、三六零、格灵深瞳、云天励飞、云从科技等; 应用场景厂商:任何一轮技术的创新最终都将带来应用的大发展、大繁荣,建议按照下列标准寻找应用机会: 1)与AIGC技术相关度更为直接的应用场景,内容的丰富与工具生产力的提升,建议关注金山办公、广联达、万兴科技、中望软件、彩讯股份等; 2)高价值、高壁垒、数据量大的垂直场景,如金融、医疗、教育等,建议关注恒生电子、同花顺、明源云、中科软、宇信科技、京北方、长亮科技、顶点软件、创业慧康、嘉和美康、久远银海、卫宁健康等; 基础算力层厂商:建议关注服务器厂商浪潮信息、中科曙光、工业富联、宝信软件等; 安全厂商:人工智能时代攻防双方都将迎来新的机会和挑战,建议关注深信服、安恒信息、启明星辰、三未信安、天融信、安博通、迪普科技、奇安信、亚信安全、中孚信息、绿盟科技、山石网科、永信至诚等。 风险提示:技术落地不及预期,竞争加剧等 重要声明 中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。。本公司不会因接收人收到本报告而视其为客户。 本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。 市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之