热门搜索：

德邦金工文献精译第八期：训练语言模型以遵循带有人类反馈的指令

2023-03-16肖承志德邦证券自***

请务必阅读正文之后的信息披露和法律声明 [Table_Main] 证券研究报告 | 金融工程专题文献精译金融工程专题 2022年03月16日金融工程专题证券分析师肖承志姓名资格编号：S0120521080003 邮箱：xiaocz＠tebon.com.cn 资格编号：S11305XXXXXX 邮箱：xxxxx＠tebon.com.cn 研究助理相关研究 1.《股价是否充分反映了业绩中应计和现金流部分所蕴含的未来盈利信息?——德邦金工文献精译第七期》2022.07.13 2.《资产配置：管理风格和绩效衡量——德邦金工文献精译第六期》2022.07.11 3.《规模很重要，如果控制了绩差股——德邦金工文献精译第五期》2022.05.28 4.《中国股市的规模和价值因子模型——德邦金工文献精译第四期》2022.04.22 5.《机器学习驱动下的金融对不确定性的吸收和加剧——德邦金工文献精译第三期》2022.02.11 6.《不可知的基本面分析是可行的——德邦金工文献精译第二期》2022.01.14 7．《机器学习因子：在线性因子模型中捕获非线性——德邦金工文献精译第一期》2021.09.17 训练语言模型以遵循带有人类反馈的指令 ——德邦金工文献精译第八期 [Table_Summary] 投资要点：  这篇报告介绍了ChatGPT语言模型使用的技术。论文标题是《Training language models to follow instructions with human feedback》，于2022年3月4日预发布于ArXiv，论文介绍了OpenAI的InstructGPT模型。ChatGPT模型并未公开发表具体实现方式，但ChatGPT模型是基于InstructGPT模型进化而来的版本，它们同属于OpenAI的GPT3.5系列模型。  构建InstructGPT模型需要一个预训练模型、一个 “提示”集合以及若干标注员：1） InstructGPT模型是基于OpenAI先前发布的GPT-3系列模型基础上一系列微调改进的模型；2）“提示”集合是部分用户请求OpenAI API生成的以及标注员生成的数据集合，这部分数据使得模型更好的读懂用户的意图；3）40个数据标注员对该论文模型的输出进行人类反馈，得到了强化学习训练所需要的奖励模型。  训练InstructGPT模型的步骤如下：1）收集演示数据，训练监督策略。使用标注员团队提供的演示数据、使用监督学习方法对预训练GPT-3模型进行微调；2）收集比较数据，训练奖励模型。给定“提示”，让模型产生多个输出，标注人员对其好坏进行排序，训练一个奖励模型来预测人类的偏好；3）使用PPO算法根据奖励模型优化策略。用奖励模型的输出作为标量奖励，使用强化学习PPO算法来进一步微调第一步的监督模型。第二步和第三步可以连续迭代：更新后的策略可以训练出新的奖励模型，转而又优化新的策略。  InstructGPT（最小13亿参数量）的效果显著优于GPT-3（1750亿参数量）。论文结果表明，使用人类反馈进行微调是使语言模型符合人类意图的一个有前途的方向。InstructGPT模型的泛化能力、真实性、降低不良信息输出方面均有提高。此外，存在一定局限性：1）雇佣的标注员只能代表用户群体的一小部分，存在偏置；2）模型容易被误用，产生令人信服的错误信息、仇恨或辱骂内容等。这样的大型语言模型的部署应该非常小心。  有许多开放性问题需要进一步探索。如在减少模型有偏见或其他有害输出的倾向方面，可用过滤预训练数据等方法；在模型可控性方面，可以将基于人类反馈的强化学习方法与其他可控性方法相结合。此外，对于大型语言模型，如何更好的综合各群体的价值观、达成广泛共识将是未来最需要解决的问题。  风险提示：数据不完备和滥用风险，信息安全风险，算法伦理风险金融工程专题 2 / 30 请务必阅读正文之后的信息披露和法律声明内容目录 1. 摘要 ................................................................................................................................ 4 2. 简介 ................................................................................................................................ 4 3. 相关工作 ......................................................................................................................... 7 4. 方法与实验细节 .............................................................................................................. 9 4.1. 高级方法 ............................................................................................................... 9 4.2. 数据集 ................................................................................................................ 10 4.3. 任务 .................................................................................................................... 10 4.4. 人工数据收集 ..................................................................................................... 11 4.5. 模型 .................................................................................................................... 11 4.6. 评价 .................................................................................................................... 13 5. 结果 .............................................................................................................................. 14 5.1. API分布上的结果 ................................................................................................ 14 5.2. 公开NLP数据集合上的结果 .............................................................................. 16 5.3. 定性结果 ............................................................................................................. 19 6. 讨论 .............................................................................................................................. 20 6.1. 对齐研究的影响 .................................................................................................. 20 6.2. 在向谁对齐 ......................................................................................................... 21 6.3. 局限性 ................................................................................................................ 22 6.3.1. 方法论 ...................................................................................................... 22 6.3.2. 模型.......................................................................................................... 22 6.4. 开放性问题 ......................................................................................................... 23 6.5. 更广泛的影响 ..................................................................................................... 24 7. 风险提示 ....................................................................................................................... 24 8. 参考文献 ....................................................................................................................... 24 信息披露 ......................................................................................................................

点击免费查看完整报告

你可能感兴趣

德邦金工文献精译第八期：训练语言模型以遵循带有人类反馈的指令

你可能感兴趣

德邦金工文献精译第十期：ChatGPT能够预测股票价格的走势吗？收益可预测性和大型语言模型

德邦金工文献精译第十一期：了解GPT：训练篇

德邦金工文献精译第四期：中国股市的规模和价值因子模型

德邦金工文献精译第一期：机器学习因子，在线性因子模型中捕获非线性

德邦金工文献精译第一期：机器学习因子：在线性因子模型中捕获非线性