
ChatGPT概览
ChatGPT自发布以来迅速获得用户关注,5天内用户数达到100万,2个月内突破1亿,引发全球热议。其轰动效应导致Google内部拉响红色警报,紧急发布Bard但因错误导致股价下跌8%。微软追加投资OpenAI 100亿美元,并推出加载ChatGPT的New Bing,计划将其接入Office套件。国内外大厂纷纷跟进。
ChatGPT官方博客介绍其核心功能:能够回答后续问题、承认错误、挑战错误前提、拒绝不当请求。ChatGPT基于GPT-3的Davinci-3模型开发,模型大小为175B。其发展历程包括迭代部署,吸取GPT-3和Codex等早期模型的经验,通过人类反馈强化学习(RLHF)大幅减少有害和失真信息输出。
ChatGPT的出色表现
ChatGPT展现出超强的理解能力,能够理解多样化用户意图、多轮对话、异构数据融合。其生成能力丰富多样,涵盖小说、诗歌、手册、学术、代码等多种体裁,并能模仿不同人物写作风格、按照要求语气和情感写作、支持多语言。此外,ChatGPT还表现出类人特征,包括世界认知、自我认知、坚持信念、通情达理、坚守价值原则等。
ChatGPT的关键技术
ChatGPT的关键技术包括预训练语言模型(PLMs)、大型生成式预训练语言模型(LLMs)和人类反馈强化学习(RLHF)。语言模型定义为一个概率分布,预测下一个词的可能性。语言模型的发展经历了n元语言模型、神经网络语言模型、循环神经网络语言模型、Transformer语言模型、预训练语言模型(PLMs)等阶段。典型PLMs包括ELMo、BERT、GPT等,采用Pre-training-then-fine-tuning范式,将pre-training阶段学习到的语言表示迁移到下游任务。
Transformer模型的核心是自注意力机制,每个token通过所有词动态加权得到,动态权重会随着输入的改变而变化。大型生成式预训练语言模型(LLMs)以GPT-3为代表,其神经网络包含1750亿个参数,在发布时为参数最多的神经网络模型。GPT-3的数据来源广泛,训练数据量达到500B,算力消耗巨大。其核心能力包括少样本学习和零样本学习、思维链、涌现和同质化等。
从GPT-3到ChatGPT
ChatGPT由GPT-3.5系列模型微调而来,采用人类反馈强化学习(RLHF)进行训练。RLHF包括三个阶段:监督策略模型、训练回报模型、强化学习增强预训练模型。RLHF的人工数据标注由40名全职标注员进行,遵循严格准则,确保模型输出的安全性和准确性。采用RLHF后,ChatGPT在回复假设性和安全性问题方面有所改善。
ChatGPT的不足之处
ChatGPT存在一些不足,如有时会写出看似合理但实际错误或荒谬的答案,对输入措辞敏感,回答过于冗长,过度使用某些短语,拒绝不适当的请求时不够灵活,价值观保护机制不完善等。此外,ChatGPT还存在事实与常识错误、数学能力和逻辑能力不足等问题。
ChatGPT未来发展方向
ChatGPT的未来发展方向包括与检索结合以改善事实性和实时性,调用外部能力以改善数学和推理能力,实现多模态理解和生成,以及进行终生持续学习等。

