AlphaGo Zero完败AlphaGo:强化学习突破人类局限

Abstract:从用棋谱到扔棋谱,阿元狗完败阿法狗显示强化学习(∈非监督学习)不依赖人的经验也可以通过自学做的很好。其意义在于做AI应用不再需要人工去标注大量样本(非监督学习之区别于监督学习),通过摆脱对人类经验和辅助的依赖,类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

// 今天票圈被《人工智能从0到1, 无师自通完爆阿法狗100-0》刷屏,Zero的确比他哥哥强悍很多,应该算是强化学习应用的标志性成绩吧。(w

AlphaGo VS AlphaGo Zero

阿法狗:基于海量数据样本训练而获得分类预测的能力。

阿法元AlphaGo Zero:在没有任何训练样本的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。不再被人类认知所局限,而能够发现新知识,发展新策略。

技术:强化学习(reinforcement learning)

训练过程和效果区别:阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。而它的哥哥阿法狗,需要在48个TPU上,花几个月的时间,学习三千万棋局,才打败人类。

AlphaGo Zero降低了训练复杂度,摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。最有趣的是证明了人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),而机器学习可以突破这个限制。

AI学习人类下法,而人类的下棋数据将算法导向了局部最优(local optima)了;放弃学习人类下法而使用完全随机的初始下法,训练过程也一直趋于收敛,未出现难以收敛的现象。

AlphaGo Zero如何实现无师自通?

1.AlphaGo:

AlphaGo采用传统增强学习技术+深度神经网络DNN完成搭建。其基于深度学习的增强学习方法按照使用的网络模型数量可以分为两类:

  • 一类使用一个DNN”端到端”地完成全部决策过程(比如DQN),这类方法比较轻便,对于离散动作决策更适用;
  • 另一类使用多个DNN分别学习子策略网络(policy)和胜率值网络(value)(比如之前战胜李世石的AlphaGoGo),这类方法比较复杂,对于各种决策更通用。

DNN缺点:DNN的一个缺点日益明显: 训练过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。

2.AlphaGo Zero:

  • AlphaGo Zero综合二者长处,采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN同时输出输出policy和value,然后利用一个蒙特卡罗搜索树完成当前步骤选择。

为什么变分开训练为同时输出:policy与value网络相当于共用之前大部分的特征提取层,输出阶段的最后几层结构仍相互独立。训练的损失函数也同时包含了policy和value两部分。这样的显然能够节省训练时间,更重要的是混合的policy与value网络也许能适应更多种不同情况。

  • 训练过程从完全随机开始:解除对人工标注样本的依赖。

为什么可解除依赖:其特征提取层采用了20或40个残差模块,每个模块包含2个卷积层。与之前采用的12层左右的卷积层相比,残差模块的运用使网络深度获得了很大的提升。AlphaGo Zero不再需要人工提取的特征应该也是由于更深的网络能更有效地直接从棋盘上提取特征。这两点结构上的改进对棋力的提升贡献大致相等。

  • DNN网络结构上吸收最新进展,采用ResNet网络中的Residual结构作为基础模块:ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。

意义

  • 不必样本:从应用角度,以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作。
  • 没有充足样本:通过摆脱对人类经验和辅助的依赖,类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。
Thanks!