AI智能总结
EMERGING技术定制系列 问题5:生成人工智能 ACKNOWLEDGEMENTS 世界银行韩国办事处 杰森·迈克尔·奥尔福德(特别代表) WBG,信息技术解决方案,技术与创新实验室(ITSTI) Yusuf Karacaoglu(董事兼高级顾问),Stela Mocan(经理),Jinhee Park(IT官员),Yongdae Kim(IT官员),Yusaku Kawashima(高级IT官员) © 2023世界银行1818 HStreet NW Washington DC20433电话:202 - 473 - 1000互联网:www. worldbank. org 这项工作是世界银行工作人员在外部贡献下的产物。这项工作中表达的调查结果、解释和结论不一定反映世界银行、其执行董事会或他们所代表的政府的观点。 世界银行不保证本作品中包含的数据的准确性。本作品中任何地图上显示的边界,颜色,面额和其他信息并不意味着世界银行对任何领土的法律地位或认可或接受此类边界的任何判断。 权限和权限 本作品中的材料受版权保护。由于世界银行鼓励传播其知识,因此只要给予该作品的全部归属,就可以出于非商业目的全部或部分复制该作品。 有关权利和许可,包括附属权利的任何疑问,应向世界银行出版物,世界银行集团,华盛顿特区西北1818号H街,美国,DC 20433;传真:202 - 522 - 2625;电子邮件:pubrights @ worldbank. org。 技术与创新实验室韩国办事处 EMERGING技术定制系列 问题5:生成人工智能 Contents I.生成人工智能的基础7II.生成AI 10的简要历史III.生成AI的类型及其工作原理14模型............................................................................................15 可扩展性............................................................................................21 V.工业中的生成AI应用22 市场营销......................................................................................26 VI.国际发展的机遇27VII.局限性和注意事项29VIII.韩国的AI 32 ....................................................................................................................35 首字母缩略词 AIBERT人工智能来自变压器的双向编码器表示RoBERT稳健优化的BERTCLIP对比语言图像预训练GAN生成对抗网络GPT生成预训练变压器LLM大型语言模型MCST文化、体育和旅游部MSIT科学和ICT部MTIE贸易、工业能源部NLP自然语言处理SOC社会间接费用资本GSN生成随机网络CNN卷积神经网络RNN循环神经网络NADE神经自回归密度估计器MADE用于分布估计的屏蔽自动编码器VAE变分自动编码器RMF风险管理框架CVPR计算机视觉与模式识别ADA自适应鉴别器增强DNA脱氧核糖核酸 INTRODUCTION 生成人工智能(AI)发展迅速,近年来引起了广泛关注,取得了许多进步和突破。生成人工智能市场预计将从2021年的15亿美元增长到2026年的65亿美元,复合年增长率为34.9%。 认识到生成AI在研究和实际应用中日益重要,包括其用于解决国际发展挑战,本报告提供了生成AI的全面概述,介绍了基础知识,解释了其随时间的发展,并研究了其类型和应用。在强调了生成AI的优势和能力之后,该报告探讨了如何将其应用于医疗保健,制造,媒体和娱乐等各个行业,然后讨论了用户必须考虑的潜在机会和限制。最后,它描述了韩国政府和私营部门参与者为在韩国和全球市场采用和推进生成人工智能而实施的举措和战略。 新兴技术系列的第五期“生成AI ”是世界银行集团信息技术解决方案技术和世界银行韩国国家办事处合作的结果。该系列捕获了新技术和趋势,并分享了知识以帮助解决国际发展挑战。 1 MarketsandMarkets。“生成的AI市场规模,趋势,驱动因素,机会和全球预测- 2030。” https: / / www. marketsandmarkets.com / Market - Reports / generative - ai - market - 142870584. html? I.遗传人工智能的基础 artner,Inc.宣布关键字“生成人工智能(AI)”是20221年战略技术的顶级战略技术趋势,并预测到2025年,生成AI G将产生所有数据的10%,而目前不到1%。生成AI是一种颠覆性的机器学习算法,可以从数据中学习内容,并使用它来产生创造性、逼真、全新的输出。它不是一种仅在拥有大量数据的世界中才能工作的技术,这是数据驱动的AI擅长的;它可以从少量的信息中创建新事物,并且可以用于各个领域和各种应用。 •艺术与设计:创成式AI创造独特的、多样化的艺术品,如数字绘画、三维设计和动画。OpenAI的DALLE2和Stabilty. AI的Stable Diffusion是这类领域的流行例子。Lexica. art是一个网站,收集使用创成式AI通过Stable Diffusion创建的图像(图1)。2•音乐:人工智能算法可以使用输入数据和用户偏好生成音乐曲目,并可以分析现有音乐数据,理解模式和结构,并生成与用户偏好和特定标准(如流派、风格或情绪)相一致的音乐。•文本:生成式AI可以生成内容,创建文章,故事,诗歌和编程代码,并可用于生成对客户查询的自动响应,以获取客户服务。OpenAI的ChatGPT(生成式预训练转换器)是此应用程序的一个流行示例。3•演讲稿:生成的AI可以获取内容并创建适当的语音音频。用户输入文本,然后AI将其实时转换为语音。生成的语音可用于各种目的,包括语音响应系统和虚拟助手。与传统的文本到语音系统不同,它生成的语音更自然,更具表现力。4 图1. 使用通用人工智能创建的图像 资料来源:Lexica. ar. II.简介一代AI的历史 G积极的人工智能是从20世纪50年代和60年代开始发展起来的,当时计算机图形系统开始使用传统的统计模型来开发,如马尔可夫模型和蒙特 获得图灵奖的计算机科学家Yann LeCun将GAN模型描述为“过去十年机器学习中最有趣的想法”。 在更广泛、更多样的数据集、更好的算法和更强大的计算机硬件的推动下,生成式人工智能的进展持续迅速。生成式人工智能用于许多应用,包括图像和视频合成、语音合成和语言生成。它仍然是一个活跃的研究领域,新模型和应用不断开发。 2017年,提出了Trasformer模型6 -自然语言处理领域的开创性方法。大型语言模型(LLM),例如GPT3,RoBERT,Gopher和BERT开始广泛流行和采用。7 LLM是一种神经网络模型,由于其大小而被称为LLM。语言模型通常由数千亿个参数组成。由于模型的大小,它可以了解输入文本中单词和短语之间的复杂关系。例如,BERT有大约3.4亿个参数。OpeAI的GPT - 2(2019年推出)有15亿个参数,GPT - 3(2020年推出)有1750亿。这些模型的大小决定了它们的质量。具有许多参数的模型允许完成以前无法完成的事情。8这些大型模型在广泛的自然语言处理任务上实现了最先进的性能(图2)。自然语言处理任务包括情感分析,问答,文本摘要,文本分类,文本生成等。自LLM最初开发以来,技术公司就开发了超级LLM。 2021年,OpeAI推出了DALL - E,这是一种生成AI模型,可以从文本创建图像。与其他LLM一样,它基于变压器模型,并在大量图像和文本描述数据集上进行训练,以便它可以学习以能够生成高度详细,富有想象力的图像的方式将两种模式关联在现实世界中不存在。2022年,引入了Midjorey9和稳定扩散,10个类似于DALL - E的AI程序,这些程序可以从文本描述中生成图像。中程是一个独立的研究实验室,可以使用Discord机器人访问其服务。它产生的图像类似于艺术品而不是照片。它可以免费使用25次。 图2. 2022年,Stability AI创建了一个开源模型Stable Diffsio;所有信息都被共享,以便个人自由访问和利用模型,因为所有信息都被公开共享。通过这种方式,Stable Diffsio创造了一个开发人员和设计师可以轻松应用图像生成AI模型的环境,这在创建当前生成AI全球趋势方面发挥了主导作用。 一代人工智能的类型及其工作原理 I发明GAN的Goodfellow根据生成AI模型如何对目标数据分布进行建模,将其分为两类。他使用的标准是模型如何定义目标数据分布的概率密度函数。根据定义的概率密度函数,可以通过从数据分布中采样来生成新数据。显式密度模型使用密度函数,隐式密度模型不使用。隐含密度。模型定义了一个直接生成输出的随机过程。 显式密度模型 显式密度模型为数据分布定义了一个密度函数,然后使用该密度函数中的一个样本来生成新的输出。显式密度模型可以分为两个子类别,具体取决于它们是易处理的密度模型还是近似的密度模型。 变分自动编码器(VAE) 12是这种类型模型的流行示例。它由将输入数据映射到缩减空间(潜在空间)的编码器和从潜在空间中的数据生成新数据样本的解码器组成。潜在空间通常被选择为比输入空间低维空间并且遵循多变量高斯分布。在训练期间,编码器估计潜在空间的平均值和标准偏差。训练结束后,不再使用编码器,使用分布的估计均值和标准差对潜在变量进行采样,然后将其通过解码器以生成新的输出样本。 图5. 隐式密度模型 与显式密度模型相反,隐式密度模型定义数据分布的隐式表示,并通过将随机噪声变换为属于目标分布的样本来生成新的输出。 隐式密度模型的示例包括生成对抗网络(GAN),它由产生数据的生成器和区分数据的鉴别器组成(图6)。生成器试图通过生成看起来尽可能像真实数据的数据来欺骗鉴别器,鉴别器试图区分真实数据和虚假数据。生成器的目标是创建与真实数据无法区分的数据,鉴别器的目标是识别哪些数据是真实的,哪些是假的。GAN的发明者Ia Goodfellow对这种关系的描述如下:“生成器就像试图制造假钱的反派者,而鉴别者就像区分假钱和真钱的警察。. " 在训练阶段,首先训练鉴别器,然后训练生成器,然后来回重复该过程。鉴别器对来自生成器的真实和虚假数据进行分类,并且被训练为将真实数据误分类为虚假或虚假数据为真实的而受到惩罚。该过程允许鉴别器将真实数据分类为真实数据,并将假数据分类为假数据。一旦鉴别器已经被训练,则生成器必须被训练以欺骗经训练的鉴别器;生成器生成的假数据被馈送到鉴别器中,并且生成器被训练以产生与真实数据足够相似的数据以将假数据分类为真实的。 随着训练过程的重复,鉴别器和生成器演变为彼此视为敌对的竞争对手。结果,生成器可以创建与真实数据相同的虚假数据,并且鉴别器不能区分真实数据和虚假数据。换句话说,GAN被设计为相互竞争,生成模型试图降低成功分类的概率,而分类模型试图增加成功分类的概率。最后,仅使用经过训练的生成器就可以生成看起来像真实数据的数据。 隐式密度模型的另一个例子是扩散模型,它是稳定AI在2022.13年引入的稳定扩散背后的模型,扩散模型是一种深度生成模型,用于生成数据,该模型使用正向过程(扩散过程)将数据一点一点地添加噪声,将数据转变为完全噪声,然后使用反向过程逐渐去除噪声来恢复原始数据(图7)。稳定扩散是利用扩散模型生成文本到图像的模型,在AI.14的艺术和创作领