您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国人工智能产业发展联盟总体组&中关村数智人工智能产业联盟数字人工作委员会]:2020虚拟数字人发展白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

2020虚拟数字人发展白皮书

2020虚拟数字人发展白皮书

中关村数智中国人工智能产业发展联盟人工智能产业联盟2020年虚拟数字人发展白皮书中国人工智能产业发展联盟总体组中关村数智人工智能产业联盟数字人工作委员会2020年12月 版权声明本白皮书版权属于中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会”。违反上述声明者,将追究其相关法律责任。 致谢本白皮书是在中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会指导和组织下,由中国信息通信研究院云计算与大数据研究所牵头,中国工商银行股份有限公司、上海浦东发展银行、凌云光技术股份有限公司、南京新一代人工智能研究院联合参与起草,有关内容得到了网易(杭州)网络有限公司、深圳市腾讯计算机系统有限公司、华为技术有限公司、魔法(上海)信息科技有限公司、量子动力(深圳)计算机科技有限公司、北京聚力维度科技有限公司等单位的支持。限于编写时间、起草人员知识积累与产业尚未完全定型等方面的因素,内容恐有疏漏,烦请不客指正。主要起草人:颜媚、石霖、张丹、孙明俊、杨艺、熊伟、曾义、张孟熙、齐凡、刘博文、罗涛、施佳子、李锋、李旭佳 前言在人工智能、虚拟现实等新技术浪测的带动下,虚拟数学人制作过程得到有效简化、各方面性能获得飞跃式提升,开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野,并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。为加快推动虚拟数字人技术和产业创新发展,中国人工智能产业发展联盟(以下简称“AIIA联盟")总体组协同中关村数智人工智能产业联盟(以下筒称ZAI联盟”)数字人工作委员会于2020年发起虚拟数字人推进计划,致力于开展虚拟数字人技术研究、标准制定、评估测试、合作交流、成果发布及生态建设工作。本白皮书是AIIA联盟总体组和乙AI联盟数字人工作委员会首次发布。白皮书回顾了虚拟数字人发展历程,重点分析了虚拟数字人关键技术和产业发展现状,对虚拟数字人的未来发展趋势进行了展望,剖析了数字人发展中的制约因素,提出产业发展建议。 目录前言虚拟数字人概述(一)虚拟数字人研究范畴(二)虚拟数字人发展历程,(三)当前虚拟数字人通用系统框架及运作流程,二、虚拟数字人关键技术趋势(一)虚拟数字人技术架构(二)建模:静态扫描建模仍为主流,包含人行为动作且其有高视觉保真度的动态光场三维重建初见端倪...(四)盗染:随着硬件能力的提升和算法的突破,真实性和实时性均大幅提升11三、虚拟数字人产业应用现状14(一)虚拟数字人产业视图14(二)虚拟数字人重点领域应用环境及典型应用案例分析.. 16四、虚拟数字人发展趋势、制约因素及建议23(一)虚拟数字人未来发展趋势,23(二)虚拟数字人发展制约因素...23(三)虚拟数字人产业发展建议25附件:虚拟数字人典型企业介绍28 2020年量拟数字人发展白皮书一、虚拟数字人概述(一)虚拟数学人研究范畴“虚拟数字人”一词最早源于1989年美国国立医学图书馆发起的可视人计划"(VisibleHumanProject,YHP)。200I年,国内以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第174次学术讨论会提出了“数字化虚拟人体”的概念。这些“虚拟数学人主要是指人体结构的可视化,以三维形式显示人体解部结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结构的数学化。主要应用于医疗领域的人体解剖教学、临床诊疗等。与上述医疗领域的数字化人体不同,本篇中所分析的虚拟数学人(以下简称“数字人”)是指具有数学化外形的虚拟人物。与具备实体的机器人不同,虚拟数学人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。(二)虚拟数字人发展历程虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的CG(ComputerGraphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段,详见图1。1 2020年拟数字人发展白皮书开治尝试将虚拟人物可传统手给正速退新授CG,动作摄深度学习算法取得实感,朝着智能化、便入到现实世界精细化、多化发围技术以手绘为主技术革新却造价不菲A成为不可分割的工具技术全面提升与突破1984年妞作了第2019年982年中的角色站技术产生时间智能A主持20世纪/+年代21世纪近五年现在深索前假图1虚拟数字人发展历程20世纪80年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时日本知名的音乐排行榜Oricon,林明美也成为了世界上第一位虚拟歌姬。1984年,英国人GeorgeStone创作出一个名为MaxHeadroom的虚拟人物,MAX拥有人类的样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数支广告,一度成为英国家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。21世纪初,传统手绘逐渐被CG、动作捕捉等技术取代,虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕提 2020年虚拟数字人发展白皮书技术,真人演员穿着动作捕捉服装,脸上点上表情捕捉点,通过摄像机、动作捕提设备将真人演员的动作、表情采集处理,经计算机处理后赋予给虚拟角色。2001年,《指环主》中的角色咕噜就是由CG技术和动作捕提技术产生,这些技术后续还在《加勒比海盗》、《猩球崛起》等电影制作中使用。2007年,日本制作了第一个被广泛认可的虚拟数字人“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象主要利用CG技术合成,人物声音采用雅马哈的VOCALOID系列语音合成,呈现形式还相对粗糙。近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始步入正轨,进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始薪露头角。2018年,新华社与搜狗联合发布的“AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。2019年,蒲发银行和百度共同发布的数学员工“小蒲”,也是利用自然语言处理、语音识别、计算机视觉等人工智能技术制作的虚拟数字人,可通过移动设备为用户提供“面对面”的银行业务服务。当前,虚拟数字人正朝着智能化、便捷化、精细化、多样化发展,步入成长期。2019年,美国影视特效公司数字王VOCALOID(日语:求一力口个下)是日本乐器制造商雅马哈公司开发的电子音乐制作语音合成软件。在软件中输入音调和歌词,就可以合成出原为人类声音的歌声。 2020年拟数字人发展白皮书国软件研发部负责人DougRoble在TED演讲时展示了自已的虚拟数字人“DigiDoug”,可在照片写实级逼真程度的前提下,进行实时的表情动作捕捉及展现。今年,三星旗下的STARLabs在CES国际消费电子展上展出了其虚拟数字人项目NEON,NEON是一种由人工智能所驱动的虚拟人物,拥有近似真人的形象及逼真的表情动作,具备表达情感和沟通交流的能力。(三)当前虚拟数学人通用系统框架及运作流程当前虚拟数学人作为新一代人机交互平台,仍处于发展期,还未有统一的通用系统框架。本白皮书根据虚拟数学人的制作技术以及目前市场上提供的数字人服务和产品结构,总结出虚拟数学人通用系统框架,如图2所示。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。人物形象根据人物图形资源的维度,可分为2D和3D两大类,从外形上又可分为卡通、拟人、写实、超写实等风格;语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画;音视频合成显示模块将语音和动画合成视频,再显示给用户。交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户的意图,并根据用户当前意图决定数学人后续的语音和动作,驱动人物开启下一轮交互。 2020年拟数字人发展白皮书虚拟数字人通用系统框架音视频合成显示模块语音生成模块动画生成模块人物形交互横块象图2虚拟数字人通用系统框架交互模块为扩展项,根据其有无,可将数字人分为交互型数字人和非交互型数字人。非交互型数字人体统的运作流程如图3所示。系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户。音视频合成显示人物语音生成文本终端用户人物动画生成数字化人物形象图3非交互类虚拟数字人系统运作流程交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。智能驱动型数人可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过AI技术训练得到 2020年拟数字人发展白皮书的,可通过文本驱动生成语音和对应动画,业内将此模型称为TTSA(TextToSpeech&Animation)人物模型。真人驱动型数字人则是通过真人来驱动数字人,主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。智能分析与决策识别感知音视频合成显示终端人物语音生成用户文本人物动画生成TTSA人物模型图4智能驱动型虚拟数字人运作流程真人音视频监控系统音视频合成显示终端人物语音录制用户动捕迁移生成动画图5真人驱动型虚拟数字人运作流程 2020年量拟数字人发展白皮书二、虚拟数字人关键技术趋势(一)虚拟数字人技术架构当前,虚拟数字人的制作涉及众多技术领域,且制作方式尚未完全定型,通过对现有虚拟数字人制作中涉及的常用技术进行调研,本自皮书在虚拟数字人通用系统框架的基础上提炼出五横两纵的技术架构,如图6所示。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物表达包括语音生成和动画生成。动画生成则包含驱动(动作生成)和道染两大部分。“两纵”是指2D、3D数字人,3D数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。2D数字人3D数字人人物生成无人物建模等人物表达语音生成、动画生成(驱动、染)等合成显示终端显示技术识别感知语音语义识别、人脸识别、动作识别等分析决策知识库、对话管理等图6虚拟数字人技术架构本自皮书重点关注虚拟数字人制作过程涉及的建模、驱动、染三大关键技术。 2020年虚拟数字人发展白皮书(二)建模:静态扫描建模仍为主流,包含人行为动作且具有高视觉保真度的动态光场三维重建初见端倪相机阵列扫描重建替代结构光扫描重建成为人物建模主流方式。早期的静态建模技术以结构光扫描重建为主。结构光扫描重建可以实现0.1毫米级的扫描重建精度,但其扫描时间长,一般在1秒以上,甚至达到分钟级,对于人体这类运动目标在友好度和适应性方面都差强人意,因此被更多的应用于工业生产、检测领域。近年来,拍照式相机阵列担描重建得到飞速发展,目前可实现毫秒级高速拍照扫猫(高性能的相机阵列精度可达到亚毫米级),满足数字人扫描重建需求,成为当前人物建模主流方式。国际上IR、Ten24等公司已经将静态重建技术完全商业化,服务于好莱坞大型影视数学人制作,国内凌云光等公司制作的拍照式人体扫描系统也已经在电影、游戏、虚拟主播项目中成功应用。相比静态重建技术,动态光场重建不仅可以重

你可能感兴趣

hot

2020年虚拟数字人发展白皮书

信息技术
中国人工智能产业发展联盟2020-12-31
hot

量子位虚拟数字人白皮书

信息技术
量子位2021-11-16
hot

虚拟数字人:溯源、应用、发展

信息技术
新媒沈阳2022-10-11