您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:百度大脑AI技术成果白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

百度大脑AI技术成果白皮书

2022-11-15-百度缠***
百度大脑AI技术成果白皮书

i 目录 引言 ......................................................................... 1 一、百度大脑进化到5.0 ....................................................... 2 二、基础层 ................................................................... 3 2.1 算法 ................................................................... 3 2.2 算力 ................................................................... 5 2.3 数据 .................................................................. 10 三、感知层 .................................................................. 11 3.1 语音 .................................................................. 11 3.2 视觉 .................................................................. 13 3.3 增强现实/虚拟现实 ..................................................... 17 四、认知层 .................................................................. 19 4.1 知识图谱 .............................................................. 20 4.2 自然语言处理 .......................................................... 22 五、平台层 .................................................................. 27 5.1 飞桨(PaddlePaddle)深度学习平台 ...................................... 28 5.2 UNIT智能对话训练与服务平台 ........................................... 32 5.3 开放数据集 ............................................................ 33 六、AI安全 ................................................................. 35 结语与展望 .................................................................. 40 1 引言 回顾过去的一年,科技与商业发展的一个关键词就是“人工智能”。在近一年的时间里,百度科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多方面取得了令人瞩目的技术成果,还将这些技术成果与行业相结合,成功应用于众多产品之中,取得了丰硕的人工智能应用成果。 2019年2月,世界知识产权组织(World Intellectual Property Organization,简称WIPO)发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。报告显示,百度在深度学习领域的专利申请量位居全球第二,超越Alphabet、微软、IBM等企业和国外学术机构,在全球企业中居于首位。 过去的一年,百度基础技术体系、智能云事业群组和AI技术平台体系进行了重大组织机构调整,三个体系统一向集团CTO汇报,这为技术中台建设和人工智能技术落地提供了良好的组织保障。 本报告总结了百度大脑在2018-2019年度取得的部分技术成果:第一章主要概述百度大脑5.0,第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。 面向未来,百度将继续打造领先的AI技术能力,构建更加繁荣的人工智能生态系统,助力各行各业进入智能化的工业大生产阶段,在智能时代创造更广泛的社会经济价值。 2 一、百度大脑进化到5.0 百度大脑是百度AI集大成者。百度大脑自2010年起开始积累基础能力,后逐步完善。2016年,百度大脑1.0完成了部分基础能力和核心技术对外开放;2017年,2.0版形成了较为完整的技术体系,开放60多项AI能力;2018年,3.0版在“多模态深度语义理解”上取得重大突破,同时开放110多项核心AI技术能力;2019年,百度大脑升级为5.0,核心技术再获重大突破,实现了AI算法、计算架构与应用场景的创新融合,成为软硬件一体的AI大生产平台。 如图1所示,百度大脑如今已形成了包括基础层、感知层、认知层、平台层以及AI安全五大核心架构在内的技术布局。同时,安全一直都贯穿AI技术研发的始终,已经融合在百度大脑的所有模块中。基于数据、算法和算力强大的基础能力支持,百度大脑拥有包括语音、视觉、增强现实(AR)/虚拟现实(VR)以及语言与知识等技术能力,并通过AI平台对外开放,形成以百度大脑为核心的技术和产业生态。 多年来,百度大脑支持百度几乎所有业务,并面向行业和社会全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级,其核心技术及开放平台荣获2018年度中国电子学会科技进步一等奖。 图1 百度大脑 3 二、基础层 2.1 算法 百度持续在算法和理论方面深入研究,在语音、图像、语言与知识等多个领域取得重大突破。 在语音识别方面,百度将注意力机制的建模技术用于在线语音识别,提出了流式多层截断注意力模型SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在2019年初实现了基于该技术的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用户体验,相对准确率提升15%至20%。该算法使用CTC(Connectionist Temporal Classification)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模。通过该方法把原来的全局整句Attention建模,变成了局部语音小段的Attention建模。同时,为了克服CTC模型中不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。最终,这种创新建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。 图2 流式多层截断注意力模型SMLTA 在个性化语音合成方面,百度还提出了语音风格和音色迁移的个性化韵律迁移语音合成技术Meitron。该技术在训练时,交叉组合不同声音的训练样本,实现了声音的音色、风格和情感的解耦。语音的个性化信息、风格信息和情感信息等沉淀到全局声音的基 4 (basis)空间中,并将声音共有信息沉淀到一个统一的声学模型中。在做语音合成的时候,用户仅仅输入少量目标语音作为指导,在全局声音基空间中进行注意力选择,选择出和当前用户个性化声音更加匹配的基。之后可以根据这个基,并结合训练好的共有信息声学模型,生成与目标语音的音色和风格高度相似的任意语音。依靠Meitron的解耦和组合机制,我们能够在不同音色、风格和情感之间进行风格转化和迁移,仅仅使用少量用户语音,就可以实现多种音色、情感和风格的转换。该技术成果已经落地百度地图产品,地图用户只需要提供约20句话的目标语音,就可以合成与目标语音非常相似的个性化声音,用于地图任意导航场景的语音播报和任意名胜景点的语音播报等。 图3 Meitron个性化韵律迁移合成技术 在计算机视觉领域,百度研发了基于图文关系的大规模图像分类弱监督算法,提出了Ubiquitous Reweighting Network(URNet),给予每张图片训练过程中不同的权重,与原始的分类模型相比,Top5提升了8个点左右。该方法在最大的图像分类数据比赛Webvision比赛中获得冠军。在图像超分辨率领域,百度提出了基于级联回归的CDSR模型,用于图像的超分增强;还提出了自适应注意力多帧融合技术,用于视频的超分增强。2019年5月,在计算机视觉Low-level Vision领域中影响力最大的竞赛NTIRE上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。在医学图像领域,百度提出全新的基于深度学习的病理切片肿瘤检测算法[1],在公共数据集Camelyon16大赛上的肿瘤定位FROC分数高达0.8096, 5 超过专业病理医生水平以及之前由哈佛、MIT等保持的大赛最佳成绩。研究成果发表于2018深度学习医学图像大会。 在自然语言处理领域,百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型,能够高精度地从语言数据中捕获主题信息。同时,通过联合恢复知识图嵌入空间中的头实体、谓词和尾实体表示,问答系统的回答准确性得到进一步提高。这项工作发表在IEEE Big Data 2018[2],SDM 2019[3],WSDM 2019[4]和NAACL 2019[5]。 很多高维的特征空间,如词嵌入、图像的特征向量等,都有非常有趣的几何结构。另一方面,多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间的特性,提出的全新Hubless Nearest Neighbor (HNN) Search算法,能够大幅提高在标准数据集上的单词翻译准确率。以词嵌入空间为例,HNN能够只用极少量标注数据,实现不同语种间单词的翻译。HNN此项基础研究能够帮助提升机器翻译系统在低频词、术语、小语种等情况下的效果。另外,HNN作为一种新的信息检索方法,对广义上的多特征空间匹配都有指导意义,如零样本图像识别等。这项工作发表在ACL 2019[6]。 百度提出的Logician逻辑家代理可以从开放领域自然语言句子中提取事实,实现了更深层次的语言理解,其性能明显优于现有的开放信息提取系统。百度还建立了一个Orator演说家代理,可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为双重任务,百度在自然语言和知识事实之间搭建了双向的桥梁,使得系统性能得到进一步的提升。这项工作发表在WSDM 2018[7]和EMNLP 2018[8]上。 2.2 算力 人工智能时代,算法能力快速提升,同时,算法对算力的要求也越来越高。为了应对算力、效率和多元化场景等核心挑战,百度提出了端到端的AI计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,满足AI训练方面IO密集、计算密集、通信密集的需求,以及AI推理方面大吞吐和低延迟的需求。与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。在系统层兼顾端云,软硬一体,实现了对算力资源的灵活调度。 6 2.2.1 芯片 云端通用AI处理器——百度昆仑 硬件的进展是这次AI发展的基础推动力量之一。云端的AI推理与训练芯片,成为了各大互联网公司、传统芯片厂商以及创业公司聚焦的战场。业界正在尝试使用特定领域架构(DSA)解决算力及功耗问题。 2018年开发者大会,百度发布了国内首款云端通用AI处理器“百度昆仑”。它基于XP