您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:Anthropic 创始人:可以给大模型「照 X 光」,AGI 2 - 发现报告

Anthropic 创始人:可以给大模型「照 X 光」,AGI 2

2023-08-21未知机构起***
Anthropic 创始人:可以给大模型「照 X 光」,AGI 2

可实现2023-08-21 Anthropic是LLM赛道排名第二的公司,由Dario Amodei创立于2021年1月,今年7月,Anthropic推出了最新一代模型Claude 2。Dario Amodei曾在OpenAI担任研究和安全副总裁,之所以创立Anthropic是因为他认为大模型中有很多安全问题亟需得到解决,因此Anthropic相当重视AI Safety,愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI系统。Anthropic和OpenAI路线上最大的差异也在于他们对可解释性的关注。 Anthropic创始人:可以给大模型「照X光」,AGI 2-3年 可实现2023-08-21 Anthropic是LLM赛道排名第二的公司,由Dario Amodei创立于2021年1月,今年7月,Anthropic推出了最新一代模型Claude 2。Dario Amodei曾在OpenAI担任研究和安全副总裁,之所以创立Anthropic是因为他认为大模型中有很多安全问题亟需得到解决,因此Anthropic相当重视AI Safety,愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI系统。Anthropic和OpenAI路线上最大的差异也在于他们对可解释性的关注。 01 为什么 Scaling Law会起作用 Q:你对Scaling Law的信仰从何而来?为什么随着数据规模的增大,模型的能力就会越来越强?Dario Amodei:Scaling Law一定程度上是一个经验性总结,我们从各种数据和现象中感知到了这一现象,并将它总结为Scaling Law,但目前还没有公认的、特别好的解释来说明它起作用的本质原理是什么。 如果一定要给一个解释的话,我个人推测这个可能和物理学中的长尾分布或者幂律定律(Power Law)比较类似。当存在有很多个特征(feature)时,占比较大的数据通常对应着主导性更强的基本规则和模式,因为这些模式经常出现,对应的数据量自然更多,而长尾数据则主要是一些更加细节和复杂规则。比如,在处理语言相关的数据时,大部分数据中都可以观察到一些基本的规律,比如词性、语序结构等等基本的语法规律,才相对长尾的则复杂语法。 这也是为什么数据每增加一个量级、模型能可以学习的行为规律就更多。但我们不清楚的是为什么二者之间的呈现出了一个完美的线性相关关系。Anthropic的首席科学家Gerard Kaplan曾用分形维数(Fractal Dimension)来解释这件事,当然也有其他人在尝试其他验证SaclingLaw的方法,但目前来看我们还是无法解释为什么。 ·分形维数(Fractal Dimension): 数学家Felix Hausdorff于1918年首次提出分形维数的概念,后来也被称为豪斯多夫维数 (Hausdorff Dimension)。分形维数可以被用来描述机器学习数据中隐含的特征关系结构,并提供了Scaling效应背后的一个数学解释模型,从而解释了AI模型为何能随规模提升表现。 并且,即便我们了解到了Scaling Law的存在,也很难预测模型具体能力的变化。在GPT-2、GPT-3的研究中我们永远不知道模型什么时候可以学会计算、编程,这些能力都是突然出现的。唯一可预测的是在数值层面,比如loss值、熵值的变化等是可以被预测得相当精确,但这就好像我们可以对天气数据进行统计、并对整个天气变化趋势进行预测,但要预测具体某一天的天气、温度则很难办到。Q:为什么模型可以突然拥有某项能力?例如它之前并不了解加法,但现在已经掌握了计算能力?是什么原因导致了这种变化? Dario Amodei:这是另一个我们还在探索的问题。我们试图用机制可解释性(Mechanistic Interpretability)方法来解释这件事,用类似于电路连接的思路来解释语言现象,你可以把这些东西想象成电路一个一个地接上去。 有一些证据显示,当模型被投喂了某些内容时,它给出正确答案的概率会突然增加,但如果我们观察模型能够真正给出正确答案之前的变化,会发现这个概率是从百万分之一、十万分之一慢慢爬升到千分之一这样递进的。在很多类似情况中,似乎有某个我们还没有观察到的逐渐变化的过程正在发生,我们暂时还没弄清楚这件事。 我们也无法确定类似于「加法」这样的「电路」是否从day 1就一直存在,只不过随着特定的过程逐渐由弱变强、进而让模型给出正确答案。这些都是我们想通过机制可解释性来回答的问题。 ·机制可解释性(Mechanistic Interpretability): 机制可解释性是对神经网络进行逆向工程的研究,它可以用来帮助人们更容易地理解模型是如何将输入映射到输出的,是对模型解释性的一种实现思路。机制可解释性的主要目标是把深度学习当作自然科学来理解,利用模型的结构和参数来解释模型的决策过程和预测结果,以便人类用户可以理解和验证模型的工作原理。它的早期工作侧重于使用矩阵分解和特征可视化方法来理解视觉网络中间层的表示,最近集中在多模态网络的表示,以及神经网络算法的通路级理解。 Anthropic曾发表过一篇机制可解释性的研究《Mechanistic Interpretability,Variables,and the Importance of InterpretableBases》。 Q:有哪些能力不会随着模型规模的扩大而出现? Dario Amodei:模型alignment和价值观相关的能力可能不会随着模型规模的扩大而自然涌现。一种思路是,模型的训练过程本质上是在预测和理解世界,它的主要职责是关于事实的,而非观点或价值观。但这里存在一些自由变量:你应该采取何种行动?你应该持何种观点?你应该重视哪些因素?但并没有这样的数据标签供模型学习。因此,我认为Alignment以及价值观等的涌现是不太可能的。 Q:是否存在一种可能,即模型能力追上人类智能水平之前,可用来训练的数据就已经被用完了? Dario Amodei:我觉得这里需要区分这是理论层面的问题还是实际实操中的情况。从理论角度来看,我们距离数据不够这件事并不远,但我个人倾向于这种情况并不太可能发生。我们可以通过很多方式来生成数据,所以数据并不会成为一个真正的障碍。还有另一种情况是,我们用光了所有可用的计算资源,从而导致模型能力进步缓慢。这两种情况都有可能。 我个人的观点是,Scaling Law大概率不会停滞,即便出现问题也更可能是计算架构的原因。举个例子,如果我们用LSTM或RNN,那么模型能力的进化速度就会发生变化。如果在各种架构情况下我们都遇到了模型能力进化的瓶颈,那这件事将相当严重,因为这意味着我们遇到了更深层次的问题。 · LSTMs: 长短期记忆网络(Long Short Term Memory networks),一种特殊的RNN网络(循环神经网络),可以学习长期依赖关系,解决传统RNN在学习长序列模式时的问题,并提取序列数据中的长短期信息。LSTM的学习能力和表示能力比标准的RNN更强。 我认为我们已经到了这样一个阶段:讨论模型可以完成哪些任务、不能无法完成哪些任务可能在本质上没有太大区别。之前人们会给模型的能力设限,认为模型无法掌握推理能力、学不会编程,认为它可能会在某些方面遭遇瓶颈。虽然包括我在内的一些人之前并不这么认为,但在前几年这种瓶颈论更占主流,现在则发生了变化。 如果未来的模型scale过程中效果的确看到了瓶颈,我认为问题来自loss function设计时侧重于next token prediction任务。当我们过度重视推理、编程能力时,模型的loss就会重点关注体现这一能力token,其他问题的token出现频率变低(拾象注:模型的预训练数据集会根据科学家对能力的重视程度,调整其配比),损失函数过于关注那些提供信息熵最多的token,而忽略了那些实际上也很重要的内容,信号可能会在噪声中被淹没。 如果这个问题出现了,我们需要引入某种强化学习的过程,RL有很多种,例如人类反馈的强化学习(RLHF),针对目标的强化学习,还有像Constitutional AI、增强(amplification)和辩论(debate)之类的方法。这些既是模型对齐的方法,也是训练模型的方式。我们可能要尝试很多种方法,但必须重点关心模型的目标是做什么。 强化学习的一个问题是,你需要设计出很完备的损失函数。而next token prediction的loss function已经设计好了,因此如果这条方向的scale看到了上限,AI的发展会出现减速。 Q:你对Scaling的理解是如何形成的? Dario Amodei:我这种观点的形成大致可以追溯到2014年至2017年期间。我一直关注AI发展,但很长一段时间里我都认为AI距离真正得到应用还需要很久,直到AlexNet的出现。随后我加入了吴恩达当时在百度的项目组,这也是我第一次接触到AI。 我认为我相当幸运,与其他同期的学术研究不同,当时我的任务是创建最优秀的语音识别系统,并且有大量数据和GPU可用。在这个项目的过程中,我很顺其自然地意识到Scaling是一种好的解决方案。这个过程和博士后的研究也不一样,我们并不一定需要提出前人没有提出过的聪明、创新的想法。 整个项目中我只需要进行一些最基础的实验,比如在循环神经网络(RNN)上添加更多层,或调整训练参数试图延长模型训练时间,在此期间,我观察模型训练过程,看过拟合何时发生。我也尝试加入新的训练数据,或减少重复训练轮次,观察这些调整对模型表现的影响。在这些实验的过程中,我注意到了一些规律性结果。不过,我还不清楚这些想象是否是突破性的事情、也不了解其他同行是否有类似发现。总体上这只是我作为一个AI初学者的很幸运的一段经历。我并不了解这个领域的其他内容,但我当时觉得这件事在语音识别领域得到了类似的验证。 在OpenAI成立之前,我就认识了Ilya,他告诉我「我们需要认识到一点,这些模型只是想要学习」,这种观点很大程度上起发了我,让我意识到之前观察到的现象可能并不随机发生的个例而是普遍存在的。这些模型只是需要学习,我们只需要提供优质的数据,为它们创造足够的操作空间,模型就会自行学习。 Q:很少有人像你和Ilya那样推导出一种「普遍智能」的观点。你在思考这个问题时与其他人的思考方式有什么不同?什么让你认为模型在语音识别上的表现将会得到持续改进,并且也会在其他方面体现着类似的情况? Dario Amodei:我确实不清楚,当我一开始在语音领域观察到类似现象的时候,我认为这只是适用于语音识别这个垂直领域的规律。在2014年到2017年这段时间里,我尝试了许多不同的事情,一次又一次地观察到了相似的情况。比如我Dota游戏中观察到了这一点,虽然机器人领域相对而言可获取的数据有限、很多人并不看好,但我也观察到了类似现象。我认为人们往往专注于解决眼前的问题,他们可能更多地在垂直方向上关注如何解决问题本身,而不是在水平方向上思考更底层的问题,以至于可能没有充分考虑到Scaling的可能性。比如对于机器人领域来说,可能最根本的问题在于训练数据不足,但人们很容易将其总结为Scaling不起作用。 Q:你是什么时候意识到语言可以是将大量数据输入到这些模型中的方式? Dario Amodei:我认为最关键的还是以next token prediction为基础的自监督学习理念,以及大量的用于预测的架构。这其实和儿童发育测试的逻辑类似。举个例子,Mary走进房间并放了一个东西,随后Chuck走了进来在Mary没注意的时候挪动了那个东西,Mary会怎么想?为了完成这种预测,模型要同时解决里面涉及到的数学问题、心理问题等等。所以在我看来,要做好预测就得没有任何限制地给模型投喂数据、让它学习。 虽然我很早之