您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:人工智能芯片行业:TPU能取代GPU吗?谷歌云计算机器学习即服务脱颖而出的差异化 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能芯片行业:TPU能取代GPU吗?谷歌云计算机器学习即服务脱颖而出的差异化

信息技术2018-02-13何翩翩天风证券啥***
人工智能芯片行业:TPU能取代GPU吗?谷歌云计算机器学习即服务脱颖而出的差异化

海外行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 1 人工智能芯片行业点评 证券研究报告 2018年02月13日 作者 何翩翩 分析师 SAC执业证书编号:S1110516080002 hepianpian@tfzq.com 雷俊成 联系人 leijuncheng@tfzq.com 马赫 联系人 mahe@tfzq.com 董可心 联系人 dongkexin@tfzq.com 相关报告 1 《谷歌(GOOGL.US)4Q17点评:“云+YouTube+硬件”难掩业绩乏力,移动端转型道阻且长;下调至增持,目标价上调至1260美元》2018-02-04 2 《人工智能芯片行业:人工智能立夏已至,AI芯片迎接蓝海;首推:英伟达GPU王者风范,Google TPU破局科技》2017-11-29 3 《谷歌TPU及强化学习:谷歌TPU以时间换吞吐量,加速云端AI帝国;AlphaGo从Lee到零,探索强化学习新起点》2017-11-22 4 《谷歌(GOOGL.US)3Q17点评:营收盈利超预期,YouTube照耀转型路 , 人 工 智 能 巨 头 新 征 途 : 云+YouTube+硬件》2017-10-27 5 《谷歌(GOOGL.US)2Q17点评:欧盟处罚争议难阻营收盈利超预期,云计算继续发力,人工智能巨头百般武艺扎实前进》2017-07-25 6 《人工智能芯片行业点评:英伟达GPU王者风范,Google TPU破局科技;人工智能冲入云霄,看好GPU、ASIC各领风骚》 2017-05-31 7 《谷歌(GOOGL.US)1Q17点评:业绩超预期触发市场重估,短期移动端广告+流媒体+云,长期看好 AI 积累,上调 TP 至 1000 美元》2017-04-28 8 《谷歌(GOOGL.US)4Q16点评:营收稳固超预期,人工智能巨头新征途:云+YouTube+硬件》2017-01-27 TPU能取代GPU吗?谷歌云计算MLaaS脱颖而出的差异化 TPU目前未能取代GPU,依托云计算拓宽MLaaS需求 TPU目前未能取代GPU,只是在某些特定算法上做针对性优化。谷歌这次将TPU开放给客户是为了提供云计算服务的差异化,提升谷歌云的机器学习即服务(MLaaS)易用性。谷歌目前没有以硬件产品方式出售TPU的计划,而是依靠TPU浮点运算精度的提高及针对TensorFlow的深度优化,以云计算服务形式销售共享。与我们此前强调的一致,我们认为Google通过Cloud TPU+TensorFlow的软硬结合,以及此后TPU Pod的加持,可进一步激活中小企业以及科研单位的云计算需求,另辟AWS、Azure之外蹊径。 谷歌云Q4单季收入跨越10亿美元门槛,但相对于AWS 51亿,微软智能云78亿的体量尚不能及;AWS龙头尚稳份额增加0.5%,微软份额增加3%为最多;谷歌份额增加1%。当前包括亚马逊AWS、微软Azure都提供了机器学习基本工具,而通过TensorFlow API+TPU,Google提供包括图像识别ResNet-50、机器翻译Transformer和物体识别RetinaNet在内的主流模型训练开发功能,日后还会提供其他服务。此外Google针对TPU的使用进行功耗优化,进一步降低数据中心的运营成本。我们认为,云计算巨头为了提高在使用服务器芯片时的议价能力,未来会消防Google寻求自主芯片开发的方案,但主要针对特定需求进行定制开发。 ASIC专用性最好实证,谷歌TPU以时间换吞吐量 AI立夏已至,以ASIC为底芯片的包括谷歌的TPU、寒武纪的MLU等,也如雨后春笋。但我们此前强调包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽理论上支持所有深度学习开发框架,但目前只针对TensorFlow做了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会花数亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。 TPU是针对自身产品的人工智能负载打造的张量处理单元TPU。第一代主要应用于在下游推理端TPU。本质上沿用了脉动阵列机架构(systolic array computers),让推理阶段以时间换吞吐量。第二代TPU除了在推理端应用,还可以进行深度学习上游训练环节。 AI芯片蓝海仍是GPU引领主流,ASIC割据一地,看好未来各领风骚 我们仍然强调:在人工智能浪潮中,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代,AI芯片间不是零和博弈。我们认为在3-5年内深度学习对GPU的需求是当仁不让的市场主流。在深度学习上游训练端(主要用在云计算数据中心里),GPU作为第一选择,英伟达表示Hyperscale巨头作为第一波客户在训练端的复购高渗透率正在向推理端延伸,针对数据中心推理的P4处理器开始出货,第二波客户则是其他云计算大公司开始放量,第三波客户则是基于云计算的互联网企业海量的数据和AI应用计算需求。 而下游推理端更接近终端应用,需求更加细分,我们认为除了GPU为主流芯片之外,包括CPU/FPGA/ASIC等也会在这个领域发挥各自的优势特点。FPGA适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。以TPU为代表的ASIC定制化芯片,包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、以及英伟达的DLA等,针对特定算法深度优化和加速,将在确定性执行模型(deterministic execution model)的应用需求中发挥作用。我们认为深度学习ASIC芯片将依靠特定优化和效能优势,未来在细分市场领域发挥所长。 风险提示:芯片开发周期过长,市场需求不达预期等。 海外行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 2 1. 谷歌TPU:以时间换吞吐量,软硬兼施,冲入云端 AI芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百家争鸣非零和博弈。“通用性和功耗的平衡”——在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁不让的第一选择,ASIC包括谷歌TPU、寒武纪MLU等也如雨后春笋。而下游推理端更接近终端应用,需求更加细分,GPU主流芯片之外,包括CPU/FPGA/ASIC也会在这个领域发挥各自的优势特点。 但我们需要强调,包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限。TPU虽然理论上支持所有深度学习开发框架,但目前只针对TensorFlow进行了深度优化。另外ASIC芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会超过亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。 ASIC(Application Specific Integrated Circuit,专用集成电路):细分市场需求确定后,以TPU为代表的ASIC定制化芯片(或者说针对特定算法深度优化和加速的DSA, Domain-Specific-Architecture),在确定性执行模型(deterministic execution model)的应用需求中发挥作用。我们认为深度学习ASIC包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、英伟达的DLA、寒武纪的NPU等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。 图1:目前深度学习领域常用的四大芯片类型,“通用性和功耗的平衡” 资料来源:微软Build,天风证券研究所 训练端推理端GPU:以英伟达为主,AMD为辅标榜通用性,多维计算及大规模并行计算架构契合深度学习的需要。在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁丌让的第一选择。GPU:英伟达VoltaGPU也开始布局推理端。深 度学 习 下游 推理 端 虽可 容纳CPU/FPGA/ASIC等芯片,但竞争态势中英伟达依然占主导。ASIC:以谷歌的TPU、英特尔的NervanaEngine为代表,针对特定框架进行深度优化定制。但开发周期较长,通用性较低。比特币挖矿目前使用ASIC专门定制化矿机。ASIC:下游推理端更接近终端应用,需求也更加细分,英伟达的DLA,寒武纪的NPU等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。CPU:通用性强,但难以适应于人工智能时代大数据并行计算工作。FPGA:依靠可编程性及电路级别的通用性,适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。但较成熟的量产设备多采用ASIC。 海外行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 3 神经网络的两个主要阶段是训练(Training和Learning)和推理(Inference和Prediction)。当前几乎所有的训练阶段都是基于浮点运算的,需要进行大规模并行张量或多维向量计算,GPU依靠优秀的通用型和并行计算优势成为广为使用的芯片。 图2:深度学习在神经网络模型的应用中主要分为上游训练端和下游推理端 资料来源:英伟达官网,天风证券研究所 在推理阶段,由于更接近终端应用需求,更关注响应时间而不是吞吐率。由于CPU和GPU结构设计更注重平均吞吐量(throughout)的time-varying优化方式,而非确保延迟性能。谷歌设计了一款为人工智能运算定制的硬件设备,张量处理单元(Tensor Processing Unit, TPU)芯片,并在2016年5月的I/O大会上正式展示。 图3:皮查伊在2016 I/O大会上介绍TensorFlow 图4:皮查伊介绍TPU性能对比 资料来源:谷歌2016 I/O大会现场照片,天风证券研究所 资料来源:谷歌2016 I/O大会现场照片,天风证券研究所 第一代TPU的确定性执行模型(deterministic execution model)针对特定推理应用工作,更好的匹配了谷歌神经网络在推理应用99%的响应时间需求。第一代TPU是在一颗ASIC芯片上建立的专门为机器学习和TensorFlow量身打造的集成芯片。该芯片从2015年开始就已经在谷歌云平台数据中心使用,谷歌表示TPU能让机器学习每瓦特性能提高一个数量级,相当于摩尔定律中芯片效能往前推进了七年或者三代。 谷歌表示,这款芯片目前不会开放给其他公司使用,而是专门为TensorFlow所准备。TPU的主要特点是: 海外行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 4 1、从硬件层面适配TensorFlow深度学习系统,是一款定制的ASIC芯片,谷歌将TPU插放入其数据中心机柜的硬盘驱动器插槽里来使用; 2、数据的本地化,减少了从存储器中读取指令与数据耗费的大量时间; 3、芯片针对机器学习专门优化,尤其对低运算精度的容忍度较高,这就使得每次运算所动用的晶体管数量更少,在同时间内通过芯片完成的运算操作也会更多。研究人员就可以使用更为强大的机器学习模型来完成快速计算。 图5:谷歌第一代TPU电路板 图6:谷歌第一代TPU尺寸示意图 资料来源:谷歌研究所官方博客,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所 图7:TPU的性能/功耗比较优势 图8:TPU的性能/功耗比较优势 资料来源:公司官网,天风证券研究所 资料来源:公司官网,天风证券研究所 自2016年以来,TPU运用在人工智能搜索算法RankBrain、搜索结果相关性的提高、