日期:2016-03-11 19:46
记硬背吗?显然不是,其实是Alphago深度学习发挥了作用。AlphaGo的核心是两种不同的深度神经网络。策略网络(policynetwork)和值网络(valuenetwork)。它们的任务在于合作挑选出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。其中,值网络负责减少搜索的深度AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而策略网络负责减少搜索的宽度面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。利用蒙特卡洛拟合,将