AI智能总结
主讲人:尼玛扎西中国工程院院士西藏大学信息科学技术学院教授 新一代人工智能技术发展及其应用 信息科学技术学院藏语智能全国重点实验室尼玛扎西 目录 人工智能 第一部分 ◼人工智能与数据◼我国的人工智能 新一代人工智能 第二部分 人工智能+ 第三部分 第一部分人工智能 ◼人工智能的定义◼人工智能的动力◼人工智能与算力◼人工智能与算法◼人工智能与数据◼我国的人工智能 AI的定义-图灵测试 由英国科学家阿兰·图灵于1950年提出 一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送给另一个房间中的一个人与一台机器测试者根据他们的回答来判断哪一个是真人,哪一个是机器 AI的定义-7个研究问题 1955年达特茅斯人工智能暑期研讨会建议书中所提的7个研究问题 AI的定义-达特茅斯会议 会议围绕“如何让机器模仿人类学习及其他智能行为”展开,探讨了通过计算机实现推理、语言理解、模式识别等能力的可能性 标志着“人工智能”学科的正式确立 会议为AI奠定了基础理论框架,包括符号推理、机器学习、自然语言处理等核心方向,并激发了后续算法研究 AI的定义 人工智能深蕴于计算机科学、脑科学、类脑科学、认知科学、控制论等基础科学之中,直接表现为机器学习、计算机视觉、自然语言处理、智能语音、知识图谱、大模型、智能体、群体智能、具身智能等技术形态,外化为人形机器人、数字人、智能终端、智能运载工具、智能软件等产品形态 人工智能通过类脑计算增强脑力劳动的新能级,通过“机器换人”培育体力劳动的新动能,带动农业、工业和服务业中的脑力劳动与体力劳动的第四次变革,形成新兴的人工智能产业 AI的动力-计算的4个时代 智能计算时代 算盘——中国发明最早的计算工具 步进计算器——德国人莱布尼茨发明第一台 自 动 完 成 四 则 运 算 的装 置(1673年,乘 法器) 雅卡尔提花织机——法国人雅卡尔发明“编程”的概念,通过打孔卡片控制印花图案(1801年) AI的动力-计算的4个时代 机械计算时代 智能计算时代 1950s—1970s 计算机跨越的第一个分水岭 1970年代开始的第四代计算机:以大规模、超大规模集成电路为主要器件;运算速度达每秒几百万次至上亿次基本运算。软件方面出现数据库管理系统、网络管理系统和面向对象语言等◼70年代,计算机完成从物质到“思维”的转变 AI的动力-计算的4个时代 机械计算时代 电子计算时代 智能计算时代 1980s—2020s TCP/IP协议让所有上网设备(手机/电脑/服务器)都遵守相同的通信规则,保证跨设备通信的畅通。定义了开放的通信标准,让不同公司可以开发各种网络应用,而不用担心底层通信问题 TCP/IP协议通过协议分层架构、可靠传输机制和开放标准,构建了互联网的神经中枢 提出者罗伯特·卡恩荣获2004年图灵奖 AI的动力-计算的4个时代 将人使用的计算机与终端与后台数据中心连接,互联网的应用通过计算机和智能终端与人进行交互 互联网深刻彻底地改变了人类社会,我们的工作、生活和学习几乎离不开它 AI的动力-计算的4个时代 机械计算时代 物理世界的端侧设备被数字化、网络化和智能化,实现“人、机、物”三元融合 除互联网外,还有数据基础设施支持各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供大模型智能服务,实现有计算的地方就有AI 智能计算带来了巨量数据、人工智能算法的突破和对算力的爆发性需求! AI的动力-计算的4个时代 机械计算时代 电子计算时代 智能计算时代 2020至今◼传统AI局限于数字世界的符号推理,而具身智能通过机器人实体与环境实时交互,实现感知、认知、决策和行动一体化 揭示了智能的本质:必须通过身体与环境的动态互动来塑造和体现 ◼机器人在工厂与工人协作时,通过强化学习不断优化动作序列,人类则专注于策略规划,形成「人类创意+机器效率」的新分工模式。 AI的动力-计算的4个时代 计算机跨越了第二个分水岭 ◼从“有意识思维”过程到“无意识思维”过程的转变 这一过程的转变涉及到“莫拉维克悖论”(Moravec's Paradox) AI的动力-计算的4个时代 机械计算时代 智能计算时代 ◼“莫拉维克悖论”(Moravec'sParadox)。 计算机善于处理人类觉得困难的问题,而不擅长处理对于人类而言很容易的问题 或者说:不同于传统假设,计算机实现逻辑推理等人类高级智慧只需相对很少的计算能力,而实现感知、运动等低级智慧却需要巨大的计算资源 AI的动力-计算的4个时代 机械计算时代 智能计算时代 ◼人工智能先驱汉斯·莫拉维克写道(1988年): “让计算机在智力测试或下棋上中展现出一个成年人的水平是相对容易的,但是要让计算机拥有如同一个一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。” AI的动力-计算的4个时代 电子计算时代 机械计算时代 智能计算时代 2020至今 “困难的问题是简单的,简单的问题是困难的” ◼语 言 学 家 和 认 知 科 学 家 史 迪 芬·平 克(Steven Pinker)认为这是人工智能研究者的最重要发现,在他1995年出版的专著“TheLanguageInstinct”(《语言本能》)中,他写道:经过35年人工智能的研究,人们学到的主要内容是“困难的问题是简单的,简单的问题是困难的” AI的动力-计算的4个时代 机械计算时代 网络计算时代 这反映了人类思维特征:两种截然不同的思维方式: ◼有意识的、谨慎的、有逻辑的语言思维◼无意识的、快速的、本能的非言语思维 有意识的:当你在超市用心算计算所买物品的价格时,使用的是逻 辑 思 维,这 与 直 觉 无 关 无意识的:当你走独木桥时,或被磕绊努力保持身体平衡时,使用的是本能的思维方式,这与逻辑无关 AI的动力-计算的4个时代 机械计算时代 电子计算时代 一个例子:我坐在咖啡馆里边看书边喝咖啡 ◼我坐在咖啡馆里,在专心地看着书的同时拿起咖啡杯喝了一口。这可不是件简单的事,在机器人研发领域,人们至今仍在绞尽脑汁想让机器人顺利无阻地完成此类任务 ◼简单地说这涉及我的视觉系统(可能是靠余光)先扫描整个场景,锁定杯子,运动皮质准确地协调整个躯干、胳膊、前臂和手部的肌肉收缩,当手触碰到杯子时,我的神经系统就传回了有关杯子重量、空间位置、温度、手柄光滑度等大量的信息。这些信息通过大脑的海量计算和反馈调整。最终在几分之一秒里,使我拿起杯子送到嘴边并喝下咖啡 AI的动力-计算的4个时代 机械计算时代 2020至今 我们能够理解人类自身是如何做算数、代数和下棋的,但我们不是太了解我们是如何认出一只猫的,也不太清楚当我们跑过山路时是如何保持身体平衡的 AI的动力-计算的4个时代 机械计算时代 电子计算时代 网络计算时代 机器学习通过改变计算机编程方式解决了悖论 通过机器学习(深度学习),人类使计算机对一个庞大的模型进行推理计算,最后得出某个特定问题的可能的解 AI的动力-计算的4个时代 机械计算时代 计算机从“服从”到“认知”的转变 ◼直到不久前,我们还在用计算机编程的方法教计算机完成特定任务(事情) 这些程序一步一步地设计计算机在可能遇到的各种情况下应该做什么?怎么做。但是这就意味着我们自己必须在教计算机处理问题之前,首先清楚地理解我们自己处理问题时的思考方式 AI的三架马车 •数据是训练AI模型的原材料,包括结构化(表格)、非结构化(文本、图像、视频)和半结构化数据 •算力是运行算法所需的计算能力,依赖 硬 件(CPU/GPU/TPU)和 软 件(并行计算框架)•算法是AI实现智能的逻辑规则和数学模型,如机器学习、深度学习、强化学习等 案例:AlphaFold(算法)通过海量蛋白质序列数据(数据)和超级计算机(算力)预测蛋白质三维结构 AI与数据 ◼使AI发展神速的其中一个原因是大数据的收集、存储、传输和分析成为可能 大数据:一种规模大到在获取、存储、管理、分析方面大大超出传统数 据库软件工具能力范围的数据集合,具有海量数据规模、高速数据流转、多样数据类型和高价值及低价值密度四大特征 AI与数据 BigData:WholeData(KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB) ◼TB、PB级的结构化、非结构化和半结构化数据。预计到今年,全球数据使用量将达到175ZB(1ZB=270Byte) ◼以前利用统计学的原理、抽样的方法分析问题。但是,这显然没有全部数据更能说明问题 ◼全量数据的采集、存储、处理与分析的需求,推动产生了系列大数据技术,其中的重点在基于分布式技术的数据存储与处理 AI与数据 AI与大数据技术二者联系密切 深度学习 ◼通过大量的样本数据进行模型训练,需要应用大数据技术存储与计算、分析这些数据 ◼大数据技术支撑了人工智能算法的实现 ◼人工智能更像是大数据技术中数据分析技术的高级阶段。曾经的数据仓库、数据挖掘技术 AI与数据 数据的重要性怎么强调都不为过! ◼如果将机器学习算法比作一架机器,那么数据就是驱动这架机器的燃料,没有燃料驱动,机器设计得再精巧也只能是摆设。而事实上,数据确实被誉为未来的“石油” ◼当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级 AI与数据 数据估计值、全球不同语种的数据不平衡 人类目前所有印刷品的数据量约为200PB(1PB= 250Byte)人类所说过的话的数据量约为4ZB(1ZB=270Byte) 英语数据占互联网内容的50%以上,中文数据虽占15%,但方言数据稀缺,小语种数据更是占比不到0.1% AI的数据 数据正在枯竭! Nature在头版敲响警钟——AI革命正“吸干”互联网数据的海洋 ◼研究机构Epoch AI近日公布的研究预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模 这意味着,未来几年内,AI大模型可能会耗尽可用于训练的高质量数据资源 AI与数据 深度学习需要大量的训练数据,目前的AI技术还是数据驱动的 ◼当数据规模越来越大时,神经网络结构更加复杂的深度学习模型更能够从大数据中提取(学习)到有效的特征,模型性能也随之非常明显地上升◼当数据量较小时,传统机器学习模型的性能与神经网络模型的差别不大 AI与数据 ◼我们今天正在使用的巨大的数据集,在几年前是想得而不能的。现在,大数据无处不在且大得惊人 ◼BigData的单位一般以TB、PB衡量。1PB=1024TB AI与数据 深度学习的大数据传输: ◼若算力是深度学习的喷气式发动机,数据则是燃料。吉尔德定律(Gilder’sLaw)保证了燃料供应 Gilder’sLaw: 主干网带宽的增长速度至少是运算性能增长速度的三倍,而主干网的网络带宽的不断增长意味着各种新的网络应用方式的出现和网络用户的使用费用的不断下降(CERNET主干网总带宽3.15T以上,中国电信主干网总带宽458T) AI与算力 算力:就是单位时间内硬件能够完成的某种运算的量。比如浮点计算、整数计算等 ◼1MOPS(MillionOperationPerSecond):处理器每秒钟一百万次(106)操作◼1GOPS(GigaOperationsPerSecond):处理器每秒钟十亿次(109)操作◼1TOPS(TeraOperationsPerSecond):处理器每秒钟一万亿次(1012)操作 FLOPS(floating-pointoperationspersecond):每秒执行浮点运算次数◼1MFLOPS(MegaFLOPS)每秒一百万(106)次的浮点运算 ◼1GFLOPS(GigaFLOPS)每秒十亿(109)次的浮点运算◼1TFLOPS(TeraFL