4.2.4 AlphaGo击败李世石背后的技术与算法
栏目:公司新闻 发布时间:2020-08-01 16:42
文章来源:正版ky棋牌官网

从2016年3月9日—15日,一场围棋大战将全世界的目光聚焦到了韩国首尔。究其原因,在于对战的双方是世界围棋冠军李世石和谷歌研发的围棋人工智能程序AlphaGo。最终,AlphaGo以近乎完美的表现以4 : 1的成绩击败了李世石。

这场在人工智能史上具有里程碑意义的围棋比赛,让人工智能更广泛地走入了大众视线,也引发了各方对人工智能这一越来越热门的科技领域的探讨。

ky棋牌下载安装ios

AlphaGo简介

AlphaGo是谷歌旗下的DeepMind团队开发的一款人—机对弈的围棋程序,被我国棋迷称为“阿尔法狗”。这款程序的棋艺并非是开发者预先教给它的,而是“自学成才”,这也是其引人瞩目的一个重要原因。

人工智能最初发展的一个重要方向是游戏,特别是围棋、象棋这类博弈游戏,要求人工智能程序能够高度模拟人类大脑的思维方式,更“聪明”、更“灵活”。1997年,IBM研发的深蓝计算机击败了世界象棋冠军卡斯帕罗夫,这是人工智能首次战胜人类棋手;之后20多年人工智能程序虽然在很多智力游戏中都有过战胜人类的例子,但唯独在围棋领域难以击败人类。这种情况一直持续到2015年AlphaGo战胜欧洲围棋冠军樊麾才得以改变。

人工智能在围棋领域举步维艰主要有三方面的原因:其一,与其他博弈类游戏相比,围棋拥有更多的可能性,每一步的走法都很多,仅棋手起手时就有361(19×19)种落子选择,在150回合的一整局中更是会出现多达10170种可能;其二,围棋的落子选择更多的是依靠基于经验积累的直觉,很难建立可以依之而行的选择模型;其三,围棋棋局的特点也使人工智能程序很难分辨当下棋局的优势方与弱势方。

围棋挑战被称为人工智能领域的“阿波罗计划”。正因如此,AlphaGo战胜世界围棋冠军才具有了里程碑式的意义。不过,AlphaGo程序的设计者并不是棋艺超群的人,而是一群杰出的机器学习领域的专家,他们只需懂得围棋的基本规则,然后利用神经网络算法将专业围棋比赛记录输入给AlphaGo,让该程序自己与自己比赛,通过这种方式积累棋艺。从这个角度来看,AlphaGo的棋艺不是开发者教的,而是“自学成才”的。

Ky棋牌下载

AlphaGo的运作原理

AlphaGo有两个神经网络——大脑策略网络和估值网络,这是其能够像人类棋手一样判断当前局面并推断未来局面的关键所在。同时再结合蒙特卡洛树搜索算法,AlphaGo便可以完成下棋。

在与李世石对战之前,谷歌首先借助以往人类对弈的近3000万种走法对AlphaGo的神经网络进行训练,使其能够对人类专业棋手的落子选择进行预判;然后又让AlphaGo自己与自己对弈,以此积累海量的全新棋谱,有效应对棋局中的各种变化。谷歌工程师曾宣称,AlphaGo每天甚至可以尝试百万量级的走法。

在具体对战过程中,AlphaGo的任务是根据当下棋局不断“挑选”出较有“前途”的走法,抛弃明显较差的棋步,从而将计算量控制在可以完成的范围。这种下棋逻辑与人类棋手在本质上是一致的。

蒙特卡洛搜索树算法

蒙特卡洛搜索树算法被广泛应用于科学和工程研究的算法仿真中,可以将其通俗地解释为:从一个装有1000个苹果的篮子中挑选出一个最大的,每次只能闭着眼睛拿出一个,但不限制挑选次数。那么接下来的场景就是,人们首先随机拿了一个,然后将第二次随机拿到的苹果与第一个比较,留下大的之后继续随机挑选,与手中的苹果比较之后仍是留下大的,如此循环往复,挑选的次数越多,拿到最大苹果的可能性也越大。不过,只有将1000个苹果都拿起了一遍,才能真正确定留下来的是最大的。

包括深蓝计算机在内的传统棋类软件都是采用暴力搜索算法,即首先将每一个可能结果都纳入搜索树中,然后根据需要从搜索树中遍历搜索。如果说这种ky棋牌在线平台方法在象棋、跳棋等领域还有一定的可行性,那么在围棋领域则很难实现,因为围棋横竖各19条线使落子具有了更多的可能性,而这些海量的选择是计算机构建的搜索树无法完全包含的,这就是人工智能程序很难战胜人类棋手的原因。

AlphaGo则借助蒙特卡洛搜索树算法有效解决了这一问题。通过深度学习,AlphaGo大大降低了搜索树的复杂性和搜索空间的范围。上面已经提到,AlphaGo有策略网络和估值网络两个神经网络,前者负责生成落子策略,后者负责搜索出“胜率”较大的落子位置。

在下棋过程中,策略网络指挥计算机搜索出人类高手可能落子的位置,即它不是考虑自己如何去落子,而是根据当前的棋盘状态“想象”人类高手下一步将会怎么走,找到最符合人类思维的几种落子位置。

不过,策略网络找到了人类高手的几种走法以后,并不能判断自己走出的这一步棋到底好不好,这时就需要估值网络根据各种走法评估整个棋盘的情况,然后确定一个更有可能获胜的落子位置。

策略网络和估值网络的这种下棋过程会反馈到蒙特卡洛树搜索算法中,并通过无数次重复上述过程找到“胜率”最高的落子方式。显然,这种搜索算法不需要像暴力搜索算法那样从搜索树中遍历搜索,而只需策略网络从“胜率”较高的地方继续推演即可,从而可以直接放弃某些路线,降低了搜索树的复杂性。

借助策略网络和估值网络两个工具,AlphaGo便可以像人类棋手那样判断当前棋局,并对未来局面进行推演,从而搜索出每次落子的最佳策略。例如,通过蒙特卡洛树搜索算法推演出未来20步的棋局,AlphaGo便可据此选择更有胜算的位置落子。

人工智能是否会对人类造成威胁

人工智能技术是对人类认知能力的延伸,能够帮助甚至替代人类完成一些工作,是解决问题的强大工具。不过,即便AlphaGo战胜了人类棋手,但人工智能在整体发展上仍然处于早期起步阶段,诸多技术性瓶颈仍有待突破,还远未到威胁人类的程度。

AlphaGo与以往人工智能程序的不同之处在于不是通过手写指令去完成每项任务,而是让计算机知道怎样完成目标并通过大量练习积累丰富的经验,以此提高成功率。因此,AlphaGo成功的秘诀是具有深度学习能力,即借助深度神经网络(策略网络和价值网络)模拟人脑的运作机制,从而像人类那样去学习、判断和决策。

这种深度学习方法已成为近些年及未来人工智能研发的热点方向,并已被应用到人脸识别、语音识别等众多领域。正因如此,AlphaGo战胜人类棋手才被业界认为是人工智能发展的重要里程碑。

AlphaGo的一些搜索算法机理可以应用到其他领域去解决一些对抗性问题,如未来的商业和金融交易,或者城市交通管理等。不过,与围棋相比,城市交通管理这类问题要复杂得多。围棋的数据结构是固定的、统一的,而城市拥堵状况等社会生活中的很多数据结构却是非结构性的、不统一的。当前来看,要让计算机从这些非结构数据中获取知识是十分困难的,需要更高的“智能化”水平和学习能力。


版权所有:ky棋牌大厅下载
服务热线
400-0620-9800