您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[赛迪]:(0505)赛迪译丛:《小数据人工智能的巨大潜力》 - 发现报告
当前位置:首页/其他报告/报告详情/

(0505)赛迪译丛:《小数据人工智能的巨大潜力》

2022-06-09-赛迪娇***
(0505)赛迪译丛:《小数据人工智能的巨大潜力》

-1-2022年5月5日第14期总第533期小数据人工智能的巨大潜力【译者按】2021年9月,美国安全与新兴技术研究中心(CSET)发布《小数据人工智能的巨大潜力》报告。报告认为,人工智能不完全依赖大数据,“小数据”方法可以针对标记数据不足的情况提供替代性解决方案,拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法,分析了各类方法在人工智能应用方面的优势,并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。赛迪智库信息化与软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。【关键词】人工智能小数据 -2-传统观点认为,尖端人工智能依赖于大量数据,一个国家(或企业)能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据,然而,并非所有人工智能系统都需要海量数据作为支撑,小数据也拥有巨大人工智能潜力。为此,本文介绍并概述了“小数据”人工智能方法,该方法有助于解决标记数据不足的问题,进而挖掘数据潜能,并鼓励政府部门、行业企业突破大数据基础设施局限,实现人工智能创新。一、“小数据”方法的分类本研究将“小数据”方法分为了五大类:迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下,可以利用这些方法训练人工智能系统。迁移学习(Transferlearning)是一种机器学习方法,可以在数据丰富的环境中学习执行任务,而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。例如,某人在开发用于识别稀有鸟类品种的应用程序时,可能只有少量鸟类照片。利用迁移学习,可以首先使用更大、更通用的图像数据库训练基本图像分类器,一旦该分类器能够区分狗与猫、花与水果、麻雀与燕子,研究人员就可以为该分类器提供 -3-更小的稀有鸟类数据集。然后,该模型可以“迁移”其已知的图像分类知识,利用这些知识从更少的数据中学习识别稀有鸟类。数据标记(Datalabeling)方法,即从有限的标记数据和大量无标记数据开始,使用一系列方法来理解可用的未标记数据。例如自动生成标记(自动标记)或识别标记重要数据点(主动学习)。例如,主动学习可被用于皮肤癌诊断的相关研究。研究人员基于已进行皮肤癌或健康皮肤标记的100张照片,进行图像分类模型的最初训练。然后,为模型提供更大的潜在训练图像集,从中选择另外100张照片进行标记并添加到训练数据中。同时,为了尽可能多地从可用数据中学习,该模型可以基于照片信息含量进行附加照片选择,自行选择信息更丰富的照片进行标记。人工数据生成(Artificialdatageneration)方法,旨在通过创建新数据点或其他相关技术,最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改(如图像分类数据集中裁剪或旋转图像)或其他更复杂的方法,推断可用数据的基础结构并从中进行推测。例如,计算机视觉研究人员利用计算机辅助设计(CAD)软件生成常见物体的逼真3D图像,并使用这些图像扩充现有的图像数据集。这种方法在处理有关重点数据的单独信息源时,相比 -4-其他方法更为切实可行。同时,这种生成更多数据的能力不仅仅可用于处理小数据集。如果单个数据的细节为敏感信息(例如,个人的健康记录),但研究人员对数据的整体分布很感兴趣,则可以使用合成数据对数据进行随机更改,以掩盖私人信息。贝叶斯方法(Bayesianmethods)是机器学习和统计学的一种大类方法,有两个共同特点。首先,该方法明确地将问题先验信息纳入其解决问题的方法中,而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息,因此更适合某些数据较为缺乏,但可以采取实用数学形式写出问题相关信息的环境。其次,贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点,从而极大减少不确定性,在可用数据有限的情况下能发挥很大作用。例如,贝叶斯方法已被用于监测全球地震活动,这对于检测地震和验证核条约十分重要。通过开发一个模型,结合有关地震学的先验知识,研究人员可以充分利用可用数据改进模型。此外,贝叶斯方法还包括处理大型数据集的其他方法。强化学习(Reinforcementlearning)是一个关于机器学习方法的广义术语,在强化学习中,计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人 -5-和自动驾驶汽车。例如,强化学习已被用于训练学习玩视频游戏的人工智能系统,从简单的街机游戏(如Pong)到战略游戏(如《星际争霸》)。在各种情况下,系统开始时都对如何玩游戏知之甚少或一无所知,但能逐步尝试,观察能产生积极奖励信号的操作,从而逐渐学习游戏规则。强化学习系统通常最终是从大量数据中学习,需要大量的计算资源,但其使用的数据通常是在系统训练时生成,即数据产生于模拟环境,不需要提前收集和标记。在强化学习问题中,计算机系统与环境交互的能力至关重要。值得注意的是,人工智能和机器学习研究融合了多种不同的方法、途径和范例,用于解决多个不同类型的问题,在实践中,很难完全分开以上五种方法类别。图1展示了这些方法间的相互连接关系。每个点代表一类研究集群1,集群之间连线的粗细程度代表了集群之间的引用强度。可以看出,虽然各集群与同一类别其他集群的联系的确最多,但不同类别的集群之间也存在大量联系。“强化学习”类别下的集群更为连贯一致,而“人工数据生成”集群则更加分散。1研究集群是由引用链接连接在一起的科学研究文章集合。 -6-图1:小数据研究集群网络图二、“小数据”方法的意义与数据密集型方法相比,不依赖预先收集和标记的大型数据集的人工智能方法具有很多优势。(一)减少大小实体之间的能力差异很多人工智能应用的大型数据集价值不断增长,同时不同机构收集、存储和处理所需数据的能力存在差异,这有可能在人工智能“拥有者”(如大型科技企业)与人工智能“匮乏者”(如小型机构)之间形成差距。对此,迁移学习、自动标记、贝叶斯方法等小数据方法能够以较少的数据应用人工智能,将有助于减少小型机构进入数据领域的壁垒,缩小大小实体之间的能力差异。 -7-(二)减少收集大量个人数据的动机多项调查表明,人们认为大型科技企业会持续收集越来越多与个人身份相关的消费者数据,用于训练其人工智能算法,并由此引发人们对人工智能威胁个人隐私的担忧。对此,某些小数据方法通过人工生成新数据(如合成数据生成),或对算法进行模拟训练,将有效去除敏感的个人可识别属性,从而减少为训练机器学习模型而收集真实世界数据的需要,减轻人们对大规模收集、使用或泄露消费者数据的担忧。(三)推动在可获得数据点较少的领域取得进展小数据方法可以为人们提供一种处理数据匮乏或缺失情况的可靠途径,解决面对重要问题时,输入人工智能系统的数据很少或不存在的情况。例如,为一组没有电子健康记录的人构建一个疾病风险预测算法,或者预测有很长喷发周期的火山再次喷发的可能性。小数据方法可以利用标记和无标记数据从相关问题中迁移知识,利用人们手头的少量数据点创建更多数据点,利用与研究领域相关的先验知识,或通过构建模拟场景或编码结构化假设来进入一个全新领域。(四)规避脏数据问题在数据利用过程中,要获得干净、结构整齐、方便研究的数据常常需要付出大量努力。对此,迁移学习、贝叶斯方法或人工 -8-数据生成方法可以通过分别依赖相关数据集、结构化模型和合成数据,减少需要清理的数据量,从而显著降低脏数据问题的规模。例如,美国国防部由于数据基础设施和遗留系统分散孤立的原因拥有大量“脏数据”,需要耗费大量人力和时间对数据进行清理、标记和组织,而数据标记类别中的方法可以自动生成标记,从而更轻松地处理大量无标记数据。三、研究发现本节介绍了从相关论文研究集群中的发现,涉及“小数据”方法研究进展、领先国家状况及支持研究的主要资金来源。共为5个类别确定了150个研究集群,包含约80324篇论文,这些论文来自安全与新兴技术中心的学术文献合并语料库(截至2021年2月12日),包含全球90%以上的学术成果。下表为所用研究集群的基本信息。表1:各个“小数据”类别中研究集群的基本信息类别确定的研究集群数量确定的研究集群中的论文数量(2010-2020年)确定的研究集群中的人工智能论文百分比(平均值)(最小值、最大值)迁移学习9810278%(52%、89%)数据标记161140574%(31%、88%)人工数据生成4143345%(6%、85%)贝叶斯方法783224741%(10%、85%)强化学习432713763%(7%、94%) -9-总计15080324(一)各类别“小数据”方法研究进展在研究数量方面,五类“小数据”方法在过去十年中存在发展程度不同步的问题。如图2所示,强化学习和贝叶斯方法相关研究论文最多,其中,贝叶斯集群中的论文数在过去十年内持续稳步增长,但强化学习集群从2015年才开始增长,在2017-2019年间增长尤为迅速。这可能与深度强化学习在近年来取得的革命性进展有关,在2015年之前,该领域一直遭受技术挑战。相比之下,人工数据生成和数据标记研究集群中的每年论文发表数量在十年间一直保持在相当低的水平。迁移学习在2010年规模很小,到2020年已有大幅度增长。图2:2010—2020年小数据出版物趋势 -10-在论文质量方面,本研究利用两个指标评估各类集群中论文的质量:H指数和年龄校正引用。H指数是一种常用的度量标准,能够获取一组论文的出版活动和总引用影响。年龄校正引用则可以调整H指数中新发表论文积累引用次数偏低的局限。由图可得,就H指数而言,强化学习领域和贝叶斯方法领域旗鼓相当;但考虑论文的年龄后,强化学习便跃居首位。这意味着本研究中贝叶斯方法的累积影响更高,强化学习领域由于近期论文发表和引用影响激增而脱颖而出。图3:2010—2020年各类别小数据方法H指数和年龄校正引用此外,由图4可得,强化学习并非是过去十年内增长最快的领域。在2011—2020年间,除了其中两年外,迁移学习呈最快的稳定增长趋势。该图表还显示了过去5年内人工数据生成领域的增长情况,但由于此类别的论文总数较少,且2012-2015增长数出现最大降幅,因此很难得出这一类别增长轨迹的具体结论。 -11-图4:2011—2020年各类别小数据方法同比增长图5根据安全与新兴技术中心开发的预测模型,以“人工智能整体”论文类别为基准,比较了各类别小数据方法的三年增长情况。根据预测,迁移学习是唯一一个增长速度超过人工智能整体研究的类别,遥遥领先于所有其他类别,并保持着前几年的持续增长趋势。 -12-注:未来增长指数是根据安全与新兴技术中心对研究集群增长的预测计算得出的。图5:2023年各类别小数据方法增长预测(二)“小数据”方法领域各国竞争力分析本节查看了全球前十的国家在每种方法中取得的研究进展,并据此探究各国在小数据方法领域的竞争力。本研究使用简单的衡量标准,如发表的论文数量和调整年龄后的引用数量,以初步获得各国在各个类别中的相对地位情况。表2显示了小数据出版物数量排名前十的国家各类别论文总量。与人工智能整体研究的结果一致,中国和美国是本研究集群中所含论文的前两大发表国,英国紧随其后。中国在数据标记和迁移学习方法领域的学术出版物总量最多,而美国在贝叶斯方法、强化学习和人工数据生成方面领先。表2:全球前十国家各类别小数据方法出版物数量强化学习贝叶斯方法迁移学习数据标记人工数据1.美国6705美国7804中国2546中国3250美国4282.中国4952中国3963美国1935美国1899中国1833.英国1540英国3423英国472印度815英国1124.德国1389德国1585澳大利亚362英国344德国865.日本1162法国1486印度285日本313台湾796.法国918澳大利亚1017法国234法国295澳大利亚727.加拿大902意大利1010