热门搜索：

计算机行业人工智能系列报告：读论文、深入浅出解析阿尔法狗Zero的技术和应用

信息技术2017-10-20田杰华新时代证券张***

敬请参阅最后一页免责声明 -1- 证券研究报告 2017年10月20日计算机行业读论文、深入浅出解析AlphaGo Zero的技术和应用 ——人工智能系列报告行业专题研究  DeepMind在《Nature》上公布最新版AlphaGo 10月18日，DeepMind 在《Nature》上公布了他们最新版AlphaGo论文，介绍了迄今最强最新的版本AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。（消息来源：新智元）  AlphaGo Zero主要算法原理：强化学习、蒙特卡洛树、神经网络左右互博，AlphaGo自我博弈提升棋力。AlphaGo Zero在进行了3天的自我训练后，在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。无为而无不为，AlphaGo放弃人类围棋知识。使用了纯强化学习（不是监督学习），没有借助人类样本标注。AlphaGo Zero没有再利用人类历史棋局，训练过程从完全随机开始，AlphaGo Zero是在双方博弈训练过程中尝试解决对人类标注样本的依赖，以前其他版本的AlphaGo，都经过人类知识的训练，它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法，从0开始，使用随机招式，40天后成为围棋界的绝世高手。 AlphaGo Zero使用了神经网络、蒙特卡洛树和强化学习，使围棋趋近最优解。由于暴力枚举算法的不可行，前几代AlphaGo采用了卷积神经网络（采用一个策略网络PolicyNet和一个价值网络ValueNet）、蒙特卡洛树、监督学习和强化学习。  强化学习的应用前景强化学习更贴切人类学习本质，应用前景广泛。（深度）强化学习适用于解决有限维度、有反馈，需要做出（连续）决策的相关应用，如自动驾驶、机器人、广告投放、金融投资、动态定价、动态治疗，以及其他前沿科学领域（预测蛋白质分子的形状，设计新材料和进行气候建模。）  投资建议 A股：科大讯飞（语音处理）、中科创达（嵌入式AI）、海康威视（图像处理）、中科曙光（AI芯片）；美股：百度（自然语言处理、自动驾驶）、英伟达（GPU深度学习生态）、谷歌（自然语言处理、自动驾驶、前沿科技）；一级市场：深鉴科技（AI芯片）、地平线机器人（自动驾驶）、商汤科技（图像处理）、云知声（语音处理）等。  风险提示：AI技术和应用进展不及预期；竞争加剧推荐（维持评级）分析师田杰华 (执业证书编号：S0280517050001) tianjiehua@xsdzq.cn 联系人胡文超 huwenchao@xsdzq.cn 戴煜立 daiyuli@xsdzq.cn 行业与指数对比图相关研报 Intel发布神经网络芯片，AI芯片领域进入战国时代 2017-10-18 华为MATE10发布，拉开AI芯片应用序幕 2017-10-17 京东新推出无人零售方案，巨头、VC推动智能零售多层次发展 2017-10-18 新时代计算机周报20171016：三季报预告披露总结，净利预告增速中值低于去年同期 2017-10-16 AI零售市场阿里、百度相继出手，百度风投领投YI Tunnel天使轮 2017-10-10 -23%-17%-11%-5%1%7%13%2016/10 2017/01 2017/04 2017/07 2017/10 计算机沪深300 2017-10-20 计算机行业敬请参阅最后一页免责声明 -2- 证券研究报告目录 1、引子——“左右互搏，天下无双” ........................................................................................................................ 3 2、 3分钟看懂AlphaGo背后的基础知识点............................................................................................................ 3 2.1、 3张图看懂监督学习、无监督学习、强化学习 ........................................................................................ 3 2.2、 2分钟理围棋类程序的重要算法——蒙特卡洛树搜索MCTS ................................................................. 5 3、 AlphaGo Zero为何是大突破——知易行难 ....................................................................................................... 6 3.1、围棋竞技——知易行难，穷举算法不可行 .............................................................................................. 6 3.2、 Zero的最大突破：使用纯强化学习，不再需要录入人类棋谱 ................................................................ 7 3.3、算法核心仍是蒙特卡洛树算法，策略、估值网络合二为一 ..................................................................... 9 3.4、 AlphaGo Zero算法技术简析 .................................................................................................................. 9 4、强化学习更贴切人类学习本质，应用前景广泛 ............................................................................................... 11 4.1、 AlphaGo Zero带来新思考 .................................................................................................................... 11 4.2、（深度）强化学习的应用场景探析 ....................................................................................................... 11 5、投资建议 .......................................................................................................................................................... 12 6、风险提示 .......................................................................................................................................................... 12 图表目录 ................................................................................................................................................................. 13 2017-10-20 计算机行业敬请参阅最后一页免责声明 -3- 证券研究报告 1、引子——‚左右互搏，天下无双‛ “这降龙十八掌掌法之妙，天下无双，一招已难抵挡，何况他以周伯通双手互搏，一人化二的奇法分进合击？” ——金庸《射雕英雄传》 AlphaGo Zero打败之前所有版本，‚左右互搏，天下无双‛！10月18日Google DeepMind在《Nature》发表了最新版本的AlphaGo Zero的论文。AlphaGo Zero在进行了3天的自我训练后，在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。图表1： AlphaGo Zero棋力最高，突破AlphaGo Master 资料来源：DeepMind，新时代证券研究所整理 2、 3分钟看懂AlphaGo背后的基础知识点 2.1、 3张图看懂监督学习、无监督学习、强化学习机器学习可分类为监督学习、非监督学习、强化学习，如何简单理解？下面三图以电视剧《人民的名义》为例，通俗介绍了监督学习（当前最火热、应用范围最大）、非监督学习、强化学习分别是什么。监督学习是当前使用最多的模型，需要有标注的数据录入模型，对模型训练（优化模型的参数），训练的后的模型可以就进行推断了（即应用）。图表2：监督学习的应用案例（以抓捕丁义珍为例） 2017-10-20 计算机行业敬请参阅最后一页免责声明 -4- 证券研究报告资料来源：电视剧《人民的名义》，百度图片，新时代证券研究所整理非监督学习强调不对数据进行任何标注（比如给你一堆图片，但是不告诉你他们分别代表什么），非监督模型可通过一定规则对给定数据进行聚类（Clustering）。图表3：非监督学习的应用案例（以抓捕丁义珍为例）资料来源：电视剧《人民的名义》，百度图片，新时代证券研究所整理强化学习包含四要素Agent，环境状态，Action行动，Rewards。Agent（机器）通过一定行动(Action)，最后会得到环境的Rewards（奖励或惩罚），最后机器会记住获得奖励的行动路径。 2017-10-20 计算机行业敬请参阅最后一页免责声明 -5- 证券研究报告图表4：强化学习的应用案例（以抓捕丁义珍为例）资料来源：电视剧《人民的名义》，百度图片，新时代证券研究所整理 2.2、 2分钟理围棋类程序的重要算法——蒙特卡洛树搜索MCTS 蒙特卡洛（Monte Calro）模拟是用大量随机样本解决数值的方法——采样越多，越接近最优解。蒙特卡洛模拟通过大量随机样本解决数值问题，是一类方法的统称，诞生于上个世纪40年代美国的"曼哈顿计划"，名字来源于赌城蒙特卡罗，象征概率。简单的案例为计算圆周率π的概率：在一个1×1的正方形（内臵一个半径1/2的圆）内撒点，如果点数足够大且均匀分布，那么圆的面积近似于圆中点数/全部点数，由此可计算出

点击免费查看完整报告

你可能感兴趣

计算机行业人工智能系列报告：读论文、深入浅出解析阿尔法狗Zero的技术和应用

你可能感兴趣

信息技术行业：网络安全先进技术与应用发展系列报告，零信任技术（Zero Trust）

计算机行业人工智能主题周报2017第31期：谷歌AlphaGo Zero围棋可自学成才，AI技术层持续突破

人工智能行业事件点评：阿尔法狗再赢柯洁，AI进一步发展

计算机行业深度分析：人工智能行业应用系列报告之二：当“人工智能”走进“大资管时代”

计算机：人工智能行业应用系列报告之一：语音开启全新交互时代