您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[新时代证券]:计算机行业人工智能系列报告:读论文、深入浅出解析阿尔法狗Zero的技术和应用 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业人工智能系列报告:读论文、深入浅出解析阿尔法狗Zero的技术和应用

信息技术2017-10-20田杰华新时代证券张***
计算机行业人工智能系列报告:读论文、深入浅出解析阿尔法狗Zero的技术和应用

敬请参阅最后一页免责声明 -1- 证券研究报告 2017年10月20日 计算机行业 读论文、深入浅出解析AlphaGo Zero的技术和应用 ——人工智能系列报告 行业专题研究  DeepMind在《Nature》上公布最新版AlphaGo 10月18日,DeepMind 在《Nature》上公布了他们最新版AlphaGo论文,介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。(消息来源:新智元)  AlphaGo Zero主要算法原理:强化学习、蒙特卡洛树、神经网络 左右互博,AlphaGo自我博弈提升棋力。AlphaGo Zero在进行了3天的自我训练后,在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。 无为而无不为,AlphaGo放弃人类围棋知识。使用了纯强化学习(不是监督学习),没有借助人类样本标注。AlphaGo Zero没有再利用人类历史棋局,训练过程从完全随机开始,AlphaGo Zero是在双方博弈训练过程中尝试解决对人类标注样本的依赖,以前其他版本的AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手。 AlphaGo Zero使用了神经网络、蒙特卡洛树和强化学习,使围棋趋近最优解。由于暴力枚举算法的不可行,前几代AlphaGo采用了卷积神经网络(采用一个策略网络PolicyNet和一个价值网络ValueNet)、蒙特卡洛树、监督学习和强化学习。  强化学习的应用前景 强化学习更贴切人类学习本质,应用前景广泛。(深度)强化学习适用于解决有限维度、有反馈,需要做出(连续)决策的相关应用,如自动驾驶、机器人、广告投放、金融投资、动态定价、动态治疗,以及其他前沿科学领域(预测蛋白质分子的形状,设计新材料和进行气候建模。)  投资建议 A股:科大讯飞(语音处理)、中科创达(嵌入式AI)、海康威视(图像处理)、中科曙光(AI芯片); 美股:百度(自然语言处理、自动驾驶)、英伟达(GPU深度学习生态)、谷歌(自然语言处理、自动驾驶、前沿科技); 一级市场:深鉴科技(AI芯片)、地平线机器人(自动驾驶)、商汤科技(图像处理)、云知声(语音处理)等。  风险提示:AI技术和应用进展不及预期;竞争加剧 推荐(维持评级) 分析师 田杰华 (执业证书编号:S0280517050001) tianjiehua@xsdzq.cn 联系人 胡文超 huwenchao@xsdzq.cn 戴煜立 daiyuli@xsdzq.cn 行业与指数对比图 相关研报 Intel发布神经网络芯片,AI芯片领域进入战国时代 2017-10-18 华为MATE10发布,拉开AI芯片应用序幕 2017-10-17 京东新推出无人零售方案,巨头、VC推动智能零售多层次发展 2017-10-18 新时代计算机周报20171016:三季报预告披露总结,净利预告增速中值低于去年同期 2017-10-16 AI零售市场阿里、百度相继出手,百度风投领投YI Tunnel天使轮 2017-10-10 -23%-17%-11%-5%1%7%13%2016/10 2017/01 2017/04 2017/07 2017/10 计算机 沪深300 2017-10-20 计算机行业 敬请参阅最后一页免责声明 -2- 证券研究报告 目 录 1、 引子——“左右互搏,天下无双” ........................................................................................................................ 3 2、 3分钟看懂AlphaGo背后的基础知识点............................................................................................................ 3 2.1、 3张图看懂监督学习、无监督学习、强化学习 ........................................................................................ 3 2.2、 2分钟理围棋类程序的重要算法——蒙特卡洛树搜索MCTS ................................................................. 5 3、 AlphaGo Zero为何是大突破——知易行难 ....................................................................................................... 6 3.1、 围棋竞技——知易行难,穷举算法不可行 .............................................................................................. 6 3.2、 Zero的最大突破:使用纯强化学习,不再需要录入人类棋谱 ................................................................ 7 3.3、 算法核心仍是蒙特卡洛树算法,策略、估值网络合二为一 ..................................................................... 9 3.4、 AlphaGo Zero算法技术简析 .................................................................................................................. 9 4、 强化学习更贴切人类学习本质,应用前景广泛 ............................................................................................... 11 4.1、 AlphaGo Zero带来新思考 .................................................................................................................... 11 4.2、 (深度)强化学习的应用场景探析 ....................................................................................................... 11 5、 投资建议 .......................................................................................................................................................... 12 6、 风险提示 .......................................................................................................................................................... 12 图表目录 ................................................................................................................................................................. 13 2017-10-20 计算机行业 敬请参阅最后一页免责声明 -3- 证券研究报告 1、 引子——‚左右互搏,天下无双‛ “这降龙十八掌掌法之妙,天下无双,一招已难抵挡,何况他以周伯通双手互搏,一人化二的奇法分进合击?” ——金庸《射雕英雄传》 AlphaGo Zero打败之前所有版本,‚左右互搏,天下无双‛!10月18日Google DeepMind在《Nature》发表了最新版本的AlphaGo Zero的论文。AlphaGo Zero在进行了3天的自我训练后,在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。 图表1: AlphaGo Zero棋力最高,突破AlphaGo Master 资料来源:DeepMind,新时代证券研究所整理 2、 3分钟看懂AlphaGo背后的基础知识点 2.1、 3张图看懂监督学习、无监督学习、强化学习 机器学习可分类为监督学习、非监督学习、强化学习,如何简单理解?下面三图以电视剧《人民的名义》为例,通俗介绍了监督学习(当前最火热、应用范围最大)、非监督学习、强化学习分别是什么。 监督学习是当前使用最多的模型,需要有标注的数据录入模型,对模型训练(优化模型的参数),训练的后的模型可以就进行推断了(即应用)。 图表2: 监督学习的应用案例(以抓捕丁义珍为例) 2017-10-20 计算机行业 敬请参阅最后一页免责声明 -4- 证券研究报告 资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理 非监督学习强调不对数据进行任何标注(比如给你一堆图片,但是不告诉你他们分别代表什么),非监督模型可通过一定规则对给定数据进行聚类(Clustering)。 图表3: 非监督学习的应用案例(以抓捕丁义珍为例) 资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理 强化学习包含四要素Agent,环境状态,Action行动,Rewards。Agent(机器)通过一定行动(Action),最后会得到环境的Rewards(奖励或惩罚),最后机器会记住获得奖励的行动路径。 2017-10-20 计算机行业 敬请参阅最后一页免责声明 -5- 证券研究报告 图表4: 强化学习的应用案例(以抓捕丁义珍为例) 资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理 2.2、 2分钟理围棋类程序的重要算法——蒙特卡洛树搜索MCTS 蒙特卡洛(Monte Calro)模拟是用大量随机样本解决数值的方法——采样越多,越接近最优解。蒙特卡洛模拟通过大量随机样本解决数值问题,是一类方法的统称,诞生于上个世纪40年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,象征概率。简单的案例为计算圆周率π的概率:在一个1×1的正方形(内臵一个半径1/2的圆)内撒点,如果点数足够大且均匀分布,那么圆的面积近似于圆中点数/全部点数,由此可计算出