AI智能总结
Foreword 前 言 如今我们正在进入人工智能(AI)带来的第五次工业革命,人工智能技术的运行速度远远快于人类的输出,并且能够生成曾经难以想象的创造性内容,例如文本、图像和视频,这些只是已经发生的一部分。人工智能的发展速度前所未有,要理解我们如何走到今天,就有必要了解人工智能的起源。人工智能的历史可以追溯到19世纪,几乎每几十年都会有重大的里程碑事件出现,并对人类社会产生深远的持续性影响。 尽管计算机和人工智能的历史并不算长,但它们已经从根本上改变了我们所看到的东西、我们所知道的东西以及我们所做的事情。对于世界的未来和我们自己的生活来说,没有什么比这段历史如何延续更重要。要了解未来会是什么样子,研究我们的历史往往很有帮助。这就是本文所要做的,我回顾了计算机和人工智能的简史,人工智能发展历程中发生的一些重大事件,看看我们对未来可以期待什么。 全 球 人 工 智 能 简 史2 0 2 4 | F a s t d a t a极 数 大语言模型简史 ABriefHistoryOfLargeLanguageModels 在瞬息万变的技术世界中,一个迷人的概念已经吸引了科技爱好者的想象力和普通人的好奇心:大型语言模型(LLM)。这些人工智能的非凡壮举不仅可以理解人类语言,还可以生成与人类行为非常相似的文本。随着我们深入探索广阔的人工智能世界,掌握基础知识和推动我们走到这一步的最新突破至关重要。 无论您是想丰富自己对人工智能理解的爱好者,还是对日常接触的技术所依赖的人工智能感兴趣的人,这段探索大型语言模型领域及其历史起源的旅程都将是一次令人着迷的探险。在踏上探索大型语言模型内部工作原理的征程时,我们必须认识到大语言模型在人工智能发展的历史中有着深厚的影响,可以追溯到20世纪中叶。要了解人工智能的发展方向,我们必须回到过去,向众多像艾伦·马西森·图灵这样才华横溢的人致敬,是他们的开创性努力为我们今天看到的LLM格局奠定了基础。 什么是大型语言模型(LLM)? 大型语言模型是生成或嵌入式文本的基础模型(一种大型神经网络)。它们生成的文本可以通过为其提供起点或“提示”来进行调节,从而使其能够用自然语言或代码解决现实世界中有用的问题。 数据科学家和研究人员通过自监督学习,在大量非结构化数据上训练LLM。在训练过程中,模型接受缺少一个或多个单词的单词序列。然后,模型预测缺失的单词,这个过程不仅会为模型产生一组有价值的权重,还会为每个输入的单词产生一个嵌入。 在推理时,用户向LLM提供“提示”——模型用作起点的文本片段。首先,模型将提示中的每个标记转换为其嵌入。然后,它使用这些嵌入来预测可能跟随的所有可能标记的相对可能性。然后,它以半随机的方式选择下一个标记并重复此过程,直到模型选择STOP标记。 你可以把它想象成一条从零到一的数字线。从左边开始,大型语言模型会将标记的概率从大到小堆叠起来。该线的第一部分,从0到0.01,可能是“你好”。第二部分,从0.01到0.019,可能是“世界”,依此类推。然后,模型在该数字线上选择一个随机点并返回与其关联的标记。实际上,大型语言模型通常只将自己限制在具有相对较高可能性的标记上。这就是为什么当输入提示“我去看了纽约”时,例如,当GPT-3发布时,其生成的第一个标记几乎总是与该城市相关的运动队或表演场地。 大语言模型简史 •萌芽前的准备 大型语言模型是一种人工神经网络(算法),在短短几年内就从新兴发展到广泛应用。它们在ChatGPT的开发中发挥了重要作用,而ChatGPT是人工智能的下一个进化步骤。生成式人工智能与大型语言模型相结合,产生了更智能的人工智能。大型语言模型(LLM)基于人工神经网络,深度学习的最新改进支持了其发展。 米歇尔·布雷亚尔1832年-1915年 •法国语言学家,现代语义学先驱 大型语言模型还使用语义技术(语义学、语义网和自然语言处理)。大型语言模型的历史始于1883年法国语言学家米歇尔·布雷亚尔提出的语义概念。米歇尔·布雷亚尔研究了语言的组织方式、语言随时间的变化以及语言中单词的连接方式。目前,语义用于为人类开发的语言,例如荷兰语或印地语,以及人工智能编程语言,例如Python和Java。 然而,自然语言处理专注于将人类交流内容翻译成计算机能够理解的语言,然后再翻译回来。它使用能够理解人类指令的系统,使计算机能够理解书面文本、识别语音并在计算机和人类语言之 间 进 行 翻 译。1906年 至1912年,费 迪南·德·索绪尔在日内瓦大学教授印欧语言学、普通语言学和梵语。 费迪南·德·索绪尔1857年-1913年 •瑞士语言学家、符号学家、哲学家 在此期间,他为语言系统这一高度实用的模型奠定了基础。他在1913年去世,没有整理和出版他的作品。幸运的是,索绪尔的同事、两位导师艾伯特·塞切海耶和查尔斯·巴利认识到索绪尔概念的潜力,并认为这些概念值得保存。这两位导师收集了他的笔记,以备将来的手稿之用,然后努力收集索绪尔学生的笔记。基于这些笔记,他们撰写了索绪尔的书,名为《通用语言学课程》(又译为《语言作为一门科学,最终演变为自然语言处理(NLP)》,并于1916年出版。语言作为一门科学奠定了结构主义方法以及后来的自然语言处理。 沃伦·麦卡洛克1898年-1969年 •美国神经科学家和控制论学者,麦卡洛克与沃尔特·皮茨一起创建了基于称为阈值逻辑的数学算法的计算模型,该模型将研究分为两种不同的方法,一种方法专注于大脑中的生物过程,另一种方法专注于神经网络在人工智能中的应用。 •加速孕育阶段 1943年,美国神经生理学家沃伦·麦卡洛克和认知心理学家沃尔特·皮茨发表了一项研究报告。研究名称为《神经活动中内在思想的逻辑演算》。在这项研究中,讨论了人工神经网络的第一个数学模型。该论文提供了一种以抽象术语描述大脑功能的方法,并表明连接在神经网络中的简单元素可以具有巨大的计算能力。在《神经活动中内在思想的逻辑演算》奠定了人工神经网络的基础,是现代深度学习的前身,其神经元的数学模型:M-P模型一直沿用至今。在不远的未来,以神经网络为基础思想的科学家们,会大大发展人工神经网络的成果。 沃尔特·皮茨1923年-1969年 如果说符号主义是利用逻辑学,自上而下的通过推理演绎的方式解决人工智能这个课题的话,人工神经网络则是利用神经科学,自下而上的通过模拟人脑思考的原理来解决人工智能这个课题。这些科学家们形成了人工智能中的另一个重要的派别,后世称其为“联结主义(Connectionists)”。 •美国逻辑学家和计算神经科学家。[他提出了神经活动和生成过程的里程碑式的理论表述,影响了认知科学和心理学、哲学、神经科学、计算机科学、人工神经网络、控制论和人工智能等不同领域,以及后来被称为生成科学的领域。 假设有人要求你设计出最强大的计算机。艾伦·图灵是计算机科学和人工智能领域的核心人物,自1954年他英年早逝后,他的声誉才得以提升。在我们所知的计算机出现之前的时代,他将自己的天才运用到解决此类问题上。他对这个问题和其他问题的理论研究仍然是计算、人工智能和现代加密标准(包括NIST推荐的标准)的基础。 二次世界大战期间,“Hut8”小组,负责德国海军密码分析。期间图灵设计了一些加速破译德国密码的技术,包括改进波兰战前研制的机器Bombe,一种可以找到恩尼格玛密码机设置的机电机器。图灵在破译截获的编码信息方面发挥了关键作用。图灵对于人工智能的发展有诸多贡献,图灵曾写过一篇名为《计算机器和智能》的论文,提问“机器会思考吗?”,作为一种用于判定机器是否具有智能的测试方法,即图灵测试。至今,每年都有试验的比赛。此外,图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础。 艾伦·图灵1912年-1954年 •英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,他被誉为计算机科学与人工智能之父。 图灵于1947年在伦敦的一次公开演讲中宣称,机器修改自身指令的潜力在大型语言模型领域具有重要意义。它强调了大型语言模型的适应能力、持续改进、解决各种问题的能力以及紧跟不断发展的语言趋势的能力。这个想法与大语言模型的动态性质完全吻合,使大语言模型能够在瞬息万变的语言环境中获取知识、进行调整并保持最新状态。 计算机在语言相关任务中的最早用途之一是机器翻译(MT),即使用计算机来翻译语言。第二次世界大战期间,两位擅长破解敌方秘密密码的人(1964年)开始了首批使用计算机进行翻译的项目之一。此后,美国各研究机构在接下来的几年里开始研究这个想法。这标志着使用计算机进行语言翻译和理解的研究的开始,也是导致我们今天所拥有的技术的早期步骤之一。 •自然语言处理的开始 自然语言处理(NLP)的起源可以追溯到20世纪50年代,当时机器理解和处理人类语言的想法还处于起步阶段。正是在这个时代,IBM和乔治城大学(1954)的研究人员开始了一个开创性的项目。他们的目标是开发一个可以自动将一组短语从俄语翻译成英语的系统,这是最早的机器语言翻译项目之一。 亚瑟·塞缪尔1901年-1990年 •美国计算机科学家,他是电脑游戏与人工智能方面的先锋。塞谬尔的电脑跳棋程式是世界上最早能成功进行自我学习的计算机程序之一,也因此是人工智能(AI)基础概念的早期展示之一。 然而,掌握自然语言处理的道路绝非易事。在接下来的几十年里,研究人员尝试了各种方法,包括概念本体和基于规则的系统。尽管他们尽了最大努力,但这些早期尝试都没有取得可靠的结果,这凸显了教机器掌握人类语言的复杂性。 •基于规则的模型 •机器学习和跳棋游戏 IBM的亚瑟·塞缪尔开发了一个计算机程序下跳棋,在20世纪50年代初。他完成了一系列算法,使他的跳棋程序得以改进,并在1959年将其描述为“机器学习”。 •Mark1感知器使用神经网络 1958年,康奈尔航空实验室的弗兰克·罗森布拉特将赫布的神经网络算法模型与塞缪尔的机器学习工作相结合,创建了第一个人工神经网络,称为Mark1感知器。尽管语言翻译仍然是一个目标,但计算机主要是为数学目的而制造的(比语言混乱得多)。这些用真空管制造的大型计算机用作计算器,计算机和软件都是被定制的。感知器的独特之处还在于它使用了为IBM704设计的软件,并确定了类似的计算机可以共享标准化的软件程序。 在1960年MarkI感知机的开发和硬件建设中达到了顶峰。从本质上讲,这是第一台可以通过试错来学习新技能的计算机,它使用了一种模拟人类思维过程的神经网络。MarkI感知机被公认为人工智能的先驱,目前位于华盛顿特区的史密森尼博物馆。MarkI能够学习、识别字母,并能解决相当复杂的问题。 弗兰克·罗森布拉特1928年-1971年 •美国人工智能领域著名心理学家。他有时被称为深度学习之父 1969年,明斯基和西摩·佩珀特出版了《感知机》一书,彻底改变人们对感知机的看法。不幸的是,Mark1感知器无法识别许多种基本的视觉模式(例如面部),导致期望落空,神经网络研究和机器学习投入也被消减。 •ELIZA使用自然语言编程 直到1966年,麻省理工学院的计算机科学家约瑟夫·魏森鲍姆开发了ELIZA,它被称为第一个使用NLP的程序。它能够从收到的输入中识别关键词,并以预先编程的答案做出回应。魏森鲍姆试图证明他的假设,即人与机器之间的交流从 从根本上说是肤浅的,但事情并没有按计划进行。为了简化实验并尽量减少争议,魏森鲍姆开发了一个程序,使用“积极倾听”,它不需要数据库来存储现实世界的信息,而是会反映一个人的陈述以推动对话向前发展。 尽管Eliza的功能相对有限,但它代表了该领域的一次重大飞跃。这个开创性的程序使用模式识别来模拟对话,将用户输入转换为问题并根据预定义规则生成响应。尽管Eliza远非完美,但它标志着自然语言处理(NLP)研究的开始,并为开发更高级的语言模型奠定了基础。 瑟夫·魏森鲍姆1923年-2008年 •美国计算机科学家。麻省理工大学的荣休教授,1966年他发