浅谈围棋人工智能

时间:2022-07-24 10:02:54

浅谈围棋人工智能

摘 要:去年3月,AlphaGo以4:1的绝对优势战胜了世界围棋冠军李世石,排名世界第二。去年年底到今年年初,短短一周内,AlphaGo的升级版Master连胜60场,在围棋界立于不败之地。本文围绕围棋人工智能AlphaGo系统,主要对围棋人工智能的基本概念、工作原理以及围棋人工智能发展意义进行了深刻分析。

关键词:AlphaGo;人工智能;围棋;未来展望

中图分类号:TP18 文献标识码:A 文章编号:1671-2064(2017)07-0193-02

1 围棋与人工智能

围棋作为中国传统四大艺术之一,拥有着几千年的悠久历史。围棋棋盘由19条横线和19条竖线组成,共有19*19=361个交叉点,围棋子分为黑白两种颜色,对弈双方各执一色,轮流将一枚棋子下在纵横交叉点上,终局时,棋子围上交叉点数目最多的一方获胜。围棋棋盘上每一个纵横交叉点都有三种可能性:落黑子、落白子、留空,所以围棋拥有高达3^361种局面;围棋的每个回合有250种可能,一盘棋可长达150回合,所以围棋的计算复杂度为250^150,约为10^170,然而全宇宙可观测的原子数量只有10^80,这足以体现围棋博弈的复杂性和多变性。

人工智能(Artificial Intelligence,AI)主要研究人类思维、行动中那些尚未算法化的功能行为,使机器像人的大脑一样思考、行动。长期以来,围棋作为一种智力博弈游戏,以其变化莫测的博弈局面,高度体现了人类的智慧,为人工智能研究提供了一个很好的测试平台,围棋人工智能也是人工智能领域的一个重要挑战。

传统的计算机下棋程序的基本原理,是通过有限步数的搜索树,即采用数学和逻辑推理方法,把每一种可能的路径都走一遍,从中选举出最优路径,使得棋局胜算最大。这种下棋思路是充分发挥计算机运算速度快、运算量大等优势的“暴力搜索法”,是人类在对弈规定的时间限制内无法做到的。但是由于围棋局面数量太大,这样的运算量对于计算机来讲也是相当之大,目前的计算机硬件无法在对弈规定的时间内,使用计算机占绝对优势的“暴力搜索法”完成围棋所有局面的择优,所以这样的下棋思路不适用于围棋对弈。

搜索量巨大的问题一直困扰着围棋人工智能,使其发展停滞不前,直到2006年, 蒙特卡罗树搜索的应用出现,才使得围棋人工智能进入了崭新的阶段,现代围棋人工智能的主要算法是基于蒙特卡洛树的优化搜索。

2 围棋人工智能基本原理

目前围棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind创造的AlphaGo围棋人工智能系统。它在与人类顶级围棋棋手的对弈中充分发挥了其搜索和计算的优势,几乎在围棋界立于不败之地。

AlphaGo系统的基本原理是将深度强化学习方法与蒙特卡洛树搜索结合,使用有监督学习策略网络和价值网络,极大减少了搜索空间,即在搜索过程中的计算量,提高了对棋局估计的准确度。

2.1 深度强化学习方法

深度学习源于人工神经网络的研究,人类大量的视觉听觉信号的感知处理都是下意识的,是基于大脑皮层神经网络的学习方法,通过模拟大脑皮层推断分析数据的复杂层状网络结构,使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象,其过程类似于人们识别物体标注图片。现如今,应用最广泛的深度学习模型包括:卷积神经网络、深度置信网络、堆栈自编码网络和递归神经网络等。

强化学习源于动物学习、参数扰动自适应控制等理论,通过模拟生物对环境以试错的方式进行交互达到对环境的最优适应的方式,通过不断地反复试验,将变化无常的动态情况与对应动作相匹配。强化学习系统设置状态、动作、状态转移概率和奖赏四个部分,在当前状态下根据策略选择动作,执行该过程并以当前转移概率转移到下一状态,同时接收环境反馈回来的奖赏,最终通过调整策略来最大化累积奖赏。

深度学习具有较强的感知能力,但缺乏一定的决策能力;强化学习具有决策能力,同样对感知问题无能为力。深度强化学习方法是将具有感知能力的深度学习和具有决策能力的强化学习结合起来,优势互补,用深度学习进行感知,从环境中获取目标观测信息,提供当前环境下的状态信息;然后用强化学习进行决策,将当前状态映射到相应动作,基于初期汇报评判动作价值。

深度强化学习为复杂系统的感知决策问题提供了一种全新的解决思路。

2.2 蒙特卡洛树搜索

蒙特卡洛树搜索是将蒙特卡洛方法与树搜索相结合形成的一种搜索方法。所谓蒙特卡洛方法是一种以概率统计理论为指导的强化学习方法,它通常解决某些随机事件出现的概率问题,或者是某随机变量的期望值等数字特征问题。通过与环境的交互,从所采集的样本中学习,获得关于决策过程的状态、动作和奖赏的大量数据,最后计算出累积奖赏的平均值。

蒙特卡洛树搜索算法是一种用于解决完美信息博弈(perfect information games,没有任何信息被隐藏的游戏)的方法,主要包含选择(Selection)、扩展(Expansion)、模拟(Simulation)和反向传播(Backpropagation)四个步骤。

2.3 策略网络与价值网络

AlphaGo系统拥有基于蒙特卡洛树搜索方法的策略网络(Policy Network)和价值网络(Value Network)两个不同的神经网络大脑,充分借鉴人类棋手的下棋模式,用策略网络来模拟人类的“棋感”,用价值网络来模拟人类对棋盘盘面的综合评估。

AlphaGo系统主要采用有监督学习策略网络,通过观察棋盘布局,进行棋路搜索,得到下一步合法落子行动的概率分布,从中找到最优的一步落子位置,做落子选择。DeepMind团队使用棋圣堂围棋服务器上3000万个专业棋手对弈棋谱的落子数据,来预测棋手的落子情况。期间,系统进行上百万次的对弈尝试,进行强化学习,将每一个棋局进行到底,不断积累“经验”,学会赢面最大的棋路走法,最终达到顶级围棋棋手的落子分析能力。而AlphaGo的价值网络使用百万次对弈中产生的棋谱,根据最终的胜负结果来进行价值网络训练,预测每一次落子选择后赢棋的可能性,通过整体局面的判断来帮助策略网络完成落子选择。

3 围棋人工智能意义

经过比赛测试证明,AlphaGo系统的围棋对弈能力已经达到世界顶级棋手水平。一直以来,围棋因为复杂的落子选择和巨大的搜索空间使得围棋人工智能在人工智能领域成为一个具有代表性的难度挑战。目前的硬件水平面对如此巨大的搜索空间显得束手无策,AlphaGo系统基于有监督学习的策略网络和价值网络大大减少搜索空间,在训练中开创性地使用深度强化学习,然后结合蒙特卡洛树搜索方法,使得系统自学习能力大大提高,并且AlphaGo系统在与人类顶级棋手对弈中取得的连胜卓越成绩,槠湓谌斯ぶ悄芰煊虻於了坚实的里程碑地位。

虽然围棋人工智能取得了如此优秀的成绩,但是也仅仅是它在既定规则内的计算处理能力远远超过了人类的现有水平,并且还有有待提高和完善的地方。在人类的其他能力中,例如情感、思维、沟通等等领域,目前的人工智能水平是远远达不到的。但是随着科技的进步和人类在人工智能领域的研究深入,人工智能与人类的差距会逐渐减小,像围棋人机大战人工智能连胜人类这样的例子也可能在其他领域发生,这就意味着人工智能的发展前景十分可观。

4 结语

人类和人工智能共同探索围棋世界的大幕即将拉开,让人类棋手结合人工智能,迈进全新人机共同学习交流的领域,进行一次新的围棋革命,探索围棋真理更高的境界。

参考文献

[1]赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,(06):701-717.

[2]陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,(02):114-120.

上一篇:台区线损概念及其整治方法探究与分析 下一篇:基于SAP系统HR模块奖金发放流程的设计和实施