您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [美国银行]:人工智能词典,第3部分:资源和风险 - 发现报告

人工智能词典,第3部分:资源和风险

信息技术 2025-07-01 美国银行 梅斌
报告封面

人工智能词典,第三部分:资源与风险 关键要点 •由于人工智能与其他技术交织在一起,人工智能的更大采用也能导致邻近领域更多的创新和更低的成本。此外,人工智能现在不仅仅是一项技术——它也是地缘政治(主权人工智能)、经济和企业的关键。 •但能力越大,责任越大,人工智能也并非没有风险。像幻觉和深度伪造这类事情会侵蚀公众对信息来源的信任。 •我们三部分系列的最终出版物讨论了人工智能资源和风险——从人工智能的物理组件(半导体)到用于开发和推进该技术所使用的工具和流程(培训、知识图谱等)。 本出版物是我们三部分人工智能词典系列的最终部分。第一部分涵盖了人工智能的基础知识,从探索当今广泛使用的人工智能常见类型到讨论关键的人工智能技术,包括机器学习、深度学习和自然语言)。我们系列的第二部分回答了“接下来会发生什么?”的问题。语言处理 (读:人工智能词典,第一部分:基础知识” 从通用人工智能到超级人工智能,我们解密这项技术,并展望未来(阅读:人工智能词典,第二部分:下一代). 深度伪造 他们是什么? The深度伪造是指人工智能生成的用于模仿真实人物或场景的内容(视频、声音、录音等)。内容可以是原创的,也可以是经过修改的现有内容。它们还可以展示原始内容,其中有人被表现成做了或说了他们实际上没有做过的事情。 例如,深度伪造图像可以基于现有的源内容,其中一个人物被替换为另一个。随着生成式人工智能的普及,深度伪造也会越来越普遍。事实上,到2030年,地球上每个人可能会有10个深度伪造图像。3 深度伪造越来越难被检测,并可被用于恶意目的 随着技术的进步,深度伪造越来越难被检测出来,这使得很难判断什么是真的,什么是假的。2030年的世界:这会带来侵蚀公众对信息来源信任的风险。正如在之前的一篇出版物中所提及的,第一部分, 生成对抗网络(GAN)能在多轮次中检测并改进深度伪造中的任何瑕疵,这使得深度伪造检测器更难解码它们。GAN也被用作创建深度伪造的一种流行方法,它依赖于对大量数据的研究来“学习”如何生成模仿真实事物的新样本,并能以惊人的准确度完成。 不幸的是,深度伪造通常被用于恶意目的,例如传播错误信息和虚假信息,或网络犯罪——无论是为了经济利益、社会动荡或其他邪恶目的。例如,它们可以被用来假装成另一个人来实施欺诈和获取服务,或获取他们用真实身份无法访问的服务。 区块链可能是一种检测深度伪造的方式 内容可以在源头上由多个参与方进行密码学签名。密码学哈希函数(用于验证数据有效性的方程式)可以在录制时分配给视频。凭借区块链的不可变性特性,一旦哈希数据被录入,便无法被修改。视频的上传、下载和每一次编辑都可以被写入智能合约。 经原始各方验证的合同。这为视频创建了一个审计追踪,保证了其完整性,并提高了可追溯性。哈希数据可以在每个阶段与源数据进行比较。如果两个数据集之间存在任何不匹配,它可以帮助得出结论,即内容已被篡改。 幻觉 这是什么? 幻觉是指模型生成的输出看似合理,但实际上是错误的、不相关的或无意义的。 为什么?AI模型是在数据上训练的,它们通过在数据中寻找模式来学习进行预测。但这些预测的准确性通常取决于训练数据的质量和完整性。5 例如,一个AI模型可以在医学图像数据集上进行训练以能够检测癌细胞。如果数据集不包含健康组织的图像,AI模型可能会错误地预测健康组织是癌性的。 此外,如果人工智能模型难以理解现实世界知识、物理属性或事实信息,就可能导致幻觉。例如,当被提示总结内容时,如果其包含原始内容中不存在的信息,甚至编造信息。 因为用户可能会相信输出并根据其做出决策而有问题 人工智能幻觉可能包括错误的预测、误报(将无关紧要的事物识别为威胁)和漏报(未能识别出真正的威胁)。这是问题的根源,因为用户可能会根据其不准确答案使用其输出,甚至做出决策。 此外,幻觉也可能是错误信息和虚假信息的来源。6鉴于真假难以辨别,它可能导致公众对信息来源的信任遭到侵蚀。误导性信息也可能对利益相关者造成声誉损害。 高质量训练数据、可信来源和具体的提示可以减少它 高质量训练数据对于确保模型在反映现实世界的数据上进行训练非常重要,这些数据应涵盖各种场景和示例,以覆盖潜在的边缘情况。这包括确保数据没有偏见和错误,或者甚至使用可信的来源。 例如,知识图谱(KGs),它整合了来自多个来源的数据,捕获关于感兴趣主题的信息并在它们之间建立联系,可以通过作为结构化且可靠的信息来源来缓解幻觉。特定的提示也有帮助,其中用户给出清晰、详细的指令,不留解释的空间。7 推理 这是什么? 8一个AI推理的例子会推理是指训练好的机器学习(ML)模型根据新数据得出结论,例如一个自动驾驶汽车能够识别它以前未曾驶过的路途上的停车标志,在这个新情境中识别停车标志就是推理。 在设计和实现人工智能模型时,有两个关键阶段:在训练阶段,模型会查看一个现有的数据集以发现其内部的模式和关系。接下来,在推理阶段,训练好的模型会将这些学习到的模式应用于当它遇到新的、之前未见过的数据时,以创建预测、生成内容或做决策。 延迟在推理中很重要 根据美国银行全球研究,通常,推理批次大小更小,使用的数据精度更低(每次使用8位数据),而不是训练(每次使用16/32位数据),因为用户不想在系统为大批次累积图像时等待几秒钟。因此,,或者输出所需时间,对于推理来说是一个比在延迟训练。 推理成本一直在下降 这大约是在不到两年内减少了99.65%。并且根据任务的不同,大型语言模型(LLM)的推理成本每年持续下降九到九百倍,使得人工智能变得更实惠、更易于获取,这反过来又推动了其应用。 在模型使用(推理)阶段增加计算量 11训练提升人工智能模型的能力对训练和推理阶段的计算需求有影响。它需要在模型创建和训练时喂入足够的智能,此时规模很重要。推理是在使用模型从中获取答案并使其工作的地方,不仅需要交换token,还需要本地计算和推理。这使计算从人工智能模型开发的仅限于训练阶段,转变为也包含使用阶段。 知识图谱 他们是什么? 知识图谱(KGs)整合来自多个来源的数据,捕获感兴趣主题的信息,并建立它们之间的联系,如展位1所示。知识图谱使用机器学习(ML)和自然语言处理(NLP)通过一个称为语义丰富的过程来构建节点、边和标签的综合视图。12 当数据通过系统时,知识图谱可以识别单个对象并理解它们之间的关系。这些知识与其他相关且性质相似的数据集集成。然而,需要注意的是并非每个数据集都是知识图谱。有许多定义,但大多数人都认为知识图谱具有以下特征:13 •图:内容组织成图状,其中节点(感兴趣的对象)、它们之间的关系和节点的属性同等重要。这使得通过链接从图的一部分导航到另一部分,轻松地集成新的数据集和格式。 •语义:数据的意义在本体中被编码,用于程序化使用——本体的模式是知识图谱的,它描述了图中实体的类型及其特征。 •存活:kg 在支持的数据和模式方面具有灵活性。它们可以演进而反映模式的变化,并且在新的数据被添加到图中时。 它们有什么用途? 今天,知识图谱被用于搜索引擎和网站、聊天机器人、零售产品推荐器、内容平台推荐引擎、了解你的客户计划以及组织和管理不同类型研究之间的关系——例如,医疗保健部门内的医学研究。 我们为什么需要知识图谱? 知识图谱可以作为一种重要的补充技术来缓解幻觉问题 —— 大型语言模型(LLM)以高度自信提供不准确信息。知识图谱(KGs)从多个来源摄取大量的事实性信息,并在它们之间建立联系。 将知识图谱(KG)与大型语言模型(LLM)集成,涉及将情境知识库融入模型,并允许它在概念之间建立逻辑联系。通过这种方式,LLM可以利用各种信息来源,包括结构化和非结构化数据,以生成更准确的输出。知识图谱不像LLM那样是概率性引擎。相反,它们可以通过作为推理和可解释性的准确知识集中来源来增强LLM,并减少对大型标记数据集的需求。 作为例子,在生物医药行业,一家公司可能想要创建一个基于LLM的聊天机器人,能够回答关于临床试验的问题。为了解决幻觉问题,该公司可以将LLM与知识图谱(KG)结合,创建一个详细的医学知识库,该知识库包含关于药物及其临床试验的结构化和非结构化信息。LLM将能够参考知识图谱的上下文知识库,以识别和分析与该化合物相关的所有信息。 这种方法的优点在于它将所有准确信息集中在一个地方,同时也更便于汇集来自不同来源和格式的信息。 负责任的AI 这是什么? 负责任的AI是一套指导AI系统开发和部署的原则。14 他们认为人工智能的广泛15 •公平性:开发公平的AI系统,并确保每个人都被公平对待。负责任的AI旨在减轻风险和对社会的影响,并力求以安全、合乎道德的方式部署。在最大化AI带来的积极影响的同时,也要规避其负面影响。一个负责任的AI框架可以包含:16 •隐私和安全:创建尊重用户隐私并保护数据免遭未经授权访问或滥用的AI系统。 •可解释性:确保人工智能系统的决策过程对人类来说是可理解的。 •透明度:理解人工智能系统是如何被创建的,或者它们是如何得出其结论的。 •治理:确保人工智能系统在符合伦理原则、组织价值观和社会期望的方式下进行开发和利用。 •可靠性与安全性:人工智能系统应该能够按照其原始设计运行,应对未预料到的情况,并抵抗有害的操纵。 •包容性:设计并使用,对各种各样的人群具有可访问性、可用性和益处的AI系统。 •问责制:确保负责设计和部署人工智能系统的个人和组织对其运行方式负责。 法规也作为开发者实现这些原则的框架 2016年至2024年期间,114个国家中有39个(超过三分之一)至少制定了一项人工智能法律。总共通过204项法律。图2展示了在此时间段内通过立法数量最多的15个国家,美国位居第一(27项法律)。2024年通过实施的法律示例包括:17 •奥地利联邦修订KommAustria法案和2021年电信法的法律该法律建立了一个人工智能服务中心,以支持、建议和协调媒体、电信和邮政领域的人工智能治理。它还规定了一个人工智能咨询委员会,以监测人工智能的发展、建议政府并塑造国家人工智能政策。为资助法案下的活动,每年拨款70万欧元,未来将根据通货膨胀进行调整。 •比利时关于成立人工智能指导委员会的王室法令该法令创建了一个联邦人工智能指导委员会,就人工智能相关政策向政府提供建议。它也是人工智能治理的主要联络点。 •拉脱维亚对选举前竞选法提出的修正案:这些修订规定了在政治广告中使用人工智能,要求对付费竞选材料中的人工智能生成内容进行明确披露。它禁止使用具有虚假或匿名社交媒体资料的自動化系统进行竞选活动。 虽然美国在2016年至2024年期间通过了最多的AI相关法律,但这些法律并非全面的联邦法律或法规,而是州一级的立法。例如: •加利福尼亚州 AI 透明度法案:这项法案要求大型AI提供方提供免费的AI检测工具,并确保AI生成的包含明确的、永久的披露声明。违规行为将导致每次罚款5000美元,由州总检察长或地方当局执行。 •科罗拉多的消费者人工智能保护:该法律为与高风险人工智能系统交互建立消费者保护措施。它要求开发者和部署者防止算法歧视。人工智能系统必须提供透明度,并允许消费者纠正或申诉人工智能驱动的决策。 欧盟 (EU) 人工智能法案 欧盟人工智能法案是欧盟监管人工智能的主要立法框架。该法案于2024年7月12日发布于《欧洲联盟官方公报》,是区域内首个全面、跨领域的监管人工智能的法律框架。该法案于2024年8月1日生效,将于2026年8月2日(第113条中列出的具体规定除外)起正式施行。 欧盟人工智能法案适用于所有行业,并根据风险对人工智能系统进行分类(图3):18 •不可接受的风险:禁止使用具有不可接受风险的模型。这包括用于社会评分的AI系统,以及那些使用欺骗性或剥削性技巧,实质性扭曲个人行为且可能造成伤害的AI系统。 •高风险:包含两类人工智能系统:1)作为安全组件或产品使用;或2)部署在八个特定领域,包括教育、就业、获取