热门搜索：

百度大脑AI技术成果白皮书

2022-11-15-百度缠***

i 目录引言 ......................................................................... 1 一、百度大脑进化到5.0 ....................................................... 2 二、基础层 ................................................................... 3 2.1 算法 ................................................................... 3 2.2 算力 ................................................................... 5 2.3 数据 .................................................................. 10 三、感知层 .................................................................. 11 3.1 语音 .................................................................. 11 3.2 视觉 .................................................................. 13 3.3 增强现实/虚拟现实 ..................................................... 17 四、认知层 .................................................................. 19 4.1 知识图谱 .............................................................. 20 4.2 自然语言处理 .......................................................... 22 五、平台层 .................................................................. 27 5.1 飞桨（PaddlePaddle）深度学习平台 ...................................... 28 5.2 UNIT智能对话训练与服务平台 ........................................... 32 5.3 开放数据集 ............................................................ 33 六、AI安全 ................................................................. 35 结语与展望 .................................................................. 40 1 引言回顾过去的一年，科技与商业发展的一个关键词就是“人工智能”。在近一年的时间里，百度科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多方面取得了令人瞩目的技术成果，还将这些技术成果与行业相结合，成功应用于众多产品之中，取得了丰硕的人工智能应用成果。 2019年2月，世界知识产权组织（World Intellectual Property Organization，简称WIPO）发布了首份技术趋势报告，聚焦人工智能领域专利申请及发展状况。报告显示，百度在深度学习领域的专利申请量位居全球第二，超越Alphabet、微软、IBM等企业和国外学术机构，在全球企业中居于首位。过去的一年，百度基础技术体系、智能云事业群组和AI技术平台体系进行了重大组织机构调整，三个体系统一向集团CTO汇报，这为技术中台建设和人工智能技术落地提供了良好的组织保障。本报告总结了百度大脑在2018-2019年度取得的部分技术成果：第一章主要概述百度大脑5.0，第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。面向未来，百度将继续打造领先的AI技术能力，构建更加繁荣的人工智能生态系统，助力各行各业进入智能化的工业大生产阶段，在智能时代创造更广泛的社会经济价值。 2 一、百度大脑进化到5.0 百度大脑是百度AI集大成者。百度大脑自2010年起开始积累基础能力，后逐步完善。2016年，百度大脑1.0完成了部分基础能力和核心技术对外开放；2017年，2.0版形成了较为完整的技术体系，开放60多项AI能力；2018年，3.0版在“多模态深度语义理解”上取得重大突破，同时开放110多项核心AI技术能力；2019年，百度大脑升级为5.0，核心技术再获重大突破，实现了AI算法、计算架构与应用场景的创新融合，成为软硬件一体的AI大生产平台。如图1所示，百度大脑如今已形成了包括基础层、感知层、认知层、平台层以及AI安全五大核心架构在内的技术布局。同时，安全一直都贯穿AI技术研发的始终，已经融合在百度大脑的所有模块中。基于数据、算法和算力强大的基础能力支持，百度大脑拥有包括语音、视觉、增强现实（AR）/虚拟现实（VR）以及语言与知识等技术能力，并通过AI平台对外开放，形成以百度大脑为核心的技术和产业生态。多年来，百度大脑支持百度几乎所有业务，并面向行业和社会全方位开放，助力合作伙伴和开发者，加速AI技术落地应用，赋能各行各业转型升级，其核心技术及开放平台荣获2018年度中国电子学会科技进步一等奖。图1 百度大脑 3 二、基础层 2.1 算法百度持续在算法和理论方面深入研究，在语音、图像、语言与知识等多个领域取得重大突破。在语音识别方面，百度将注意力机制的建模技术用于在线语音识别，提出了流式多层截断注意力模型SMLTA，实现了流式的基于注意力机制的声学语言一体化建模，并在2019年初实现了基于该技术的大规模产品上线，大幅提升了语音识别产品在线识别准确率和用户体验，相对准确率提升15%至20%。该算法使用CTC（Connectionist Temporal Classification）的尖峰信息对连续语音流进行截断，然后在每一个截断的语音小段上进行当前建模单元的注意力建模。通过该方法把原来的全局整句Attention建模，变成了局部语音小段的Attention建模。同时，为了克服CTC模型中不可避免的插入删除错误对系统造成的影响，该算法引入一种特殊的多级Attention机制，实现特征层层递进的更精准的特征选择。最终，这种创新建模方法的识别率不但超越了传统的全局Attention建模，同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。图2 流式多层截断注意力模型SMLTA 在个性化语音合成方面，百度还提出了语音风格和音色迁移的个性化韵律迁移语音合成技术Meitron。该技术在训练时，交叉组合不同声音的训练样本，实现了声音的音色、风格和情感的解耦。语音的个性化信息、风格信息和情感信息等沉淀到全局声音的基 4 （basis）空间中，并将声音共有信息沉淀到一个统一的声学模型中。在做语音合成的时候，用户仅仅输入少量目标语音作为指导，在全局声音基空间中进行注意力选择，选择出和当前用户个性化声音更加匹配的基。之后可以根据这个基，并结合训练好的共有信息声学模型，生成与目标语音的音色和风格高度相似的任意语音。依靠Meitron的解耦和组合机制，我们能够在不同音色、风格和情感之间进行风格转化和迁移，仅仅使用少量用户语音，就可以实现多种音色、情感和风格的转换。该技术成果已经落地百度地图产品，地图用户只需要提供约20句话的目标语音，就可以合成与目标语音非常相似的个性化声音，用于地图任意导航场景的语音播报和任意名胜景点的语音播报等。图3 Meitron个性化韵律迁移合成技术在计算机视觉领域，百度研发了基于图文关系的大规模图像分类弱监督算法，提出了Ubiquitous Reweighting Network（URNet），给予每张图片训练过程中不同的权重，与原始的分类模型相比，Top5提升了8个点左右。该方法在最大的图像分类数据比赛Webvision比赛中获得冠军。在图像超分辨率领域，百度提出了基于级联回归的CDSR模型，用于图像的超分增强；还提出了自适应注意力多帧融合技术，用于视频的超分增强。2019年5月，在计算机视觉Low-level Vision领域中影响力最大的竞赛NTIRE上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。在医学图像领域，百度提出全新的基于深度学习的病理切片肿瘤检测算法[1]，在公共数据集Camelyon16大赛上的肿瘤定位FROC分数高达0.8096， 5 超过专业病理医生水平以及之前由哈佛、MIT等保持的大赛最佳成绩。研究成果发表于2018深度学习医学图像大会。在自然语言处理领域，百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型，能够高精度地从语言数据中捕获主题信息。同时，通过联合恢复知识图嵌入空间中的头实体、谓词和尾实体表示，问答系统的回答准确性得到进一步提高。这项工作发表在IEEE Big Data 2018[2]，SDM 2019[3]，WSDM 2019[4]和NAACL 2019[5]。很多高维的特征空间，如词嵌入、图像的特征向量等，都有非常有趣的几何结构。另一方面，多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间的特性，提出的全新Hubless Nearest Neighbor （HNN） Search算法，能够大幅提高在标准数据集上的单词翻译准确率。以词嵌入空间为例，HNN能够只用极少量标注数据，实现不同语种间单词的翻译。HNN此项基础研究能够帮助提升机器翻译系统在低频词、术语、小语种等情况下的效果。另外，HNN作为一种新的信息检索方法，对广义上的多特征空间匹配都有指导意义，如零样本图像识别等。这项工作发表在ACL 2019[6]。百度提出的Logician逻辑家代理可以从开放领域自然语言句子中提取事实，实现了更深层次的语言理解，其性能明显优于现有的开放信息提取系统。百度还建立了一个Orator演说家代理，可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为双重任务，百度在自然语言和知识事实之间搭建了双向的桥梁，使得系统性能得到进一步的提升。这项工作发表在WSDM 2018[7]和EMNLP 2018[8]上。 2.2 算力人工智能时代，算法能力快速提升，同时，算法对算力的要求也越来越高。为了应对算力、效率和多元化场景等核心挑战，百度提出了端到端的AI计算架构，通过芯片、连接、系统和调度的协同设计和技术创新，满足AI训练方面IO密集、计算密集、通信密集的需求，以及AI推理方面大吞吐和低延迟的需求。与此同时，包括芯片之间、系统之间、设备之间的互相连接，将帮助不同场景中的计算连接在一起，产生更大的计算力。在系统层兼顾端云，软硬一体，实现了对算力资源的灵活调度。 6 2.2.1 芯片云端通用AI处理器——百度昆仑硬件的进展是这次AI发展的基础推动力量之一。云端的AI推理与训练芯片，成为了各大互联网公司、传统芯片厂商以及创业公司聚焦的战场。业界正在尝试使用特定领域架构（DSA）解决算力及功耗问题。 2018年开发者大会，百度发布了国内首款云端通用AI处理器“百度昆仑”。它基于XP

点击免费查看完整报告

你可能感兴趣

百度大脑AI技术成果白皮书

你可能感兴趣

2018-2019年百度大脑AI技术成果白皮书报告

百度大脑智能对话引擎白皮书

2023百度成人培训行业白皮书：解码成人培训新需求，构建生成式AI时代下的行业新解法

百度少帅谈百度大脑-2016光大策略会实录系列三

电子元器件行业：百度大脑击败人类选手，计算与传感器是关键