基于交互学习神经网路的仿真研究

时间:2022-10-06 12:36:22

基于交互学习神经网路的仿真研究

【摘要】交互学习可促使人更加具有智慧,因此,研究人类的交互学习对于探索人类的学习规律具有十分重要的意义。有研究表明,神经网路同博弈理论相结合能够构建人类交互学习模型,本文通过对交互学习神经网路模型进行构建,采用仿真技术对人类交互学习的过程及其基本规律进行研究,结果显示,此模型能够对交互及竞争学习过程进行有效模拟。

【关键词】交互学习;博弈理论;神经网路;仿真

人类作为一种群居性的动物天生就具有交互性学习的能力,交互性学习可以促使人变得更有智慧,因为一旦某一只动物变聪明,其它动物就能够对此能力进行学习,因此也会跟着变得更聪明。若某人了解交互学习与竞争学习之间的关系,那么这个人就会变得更加聪明。若某民族了解此道理,则此民族也会更兴旺。因此,研究交互学习规律对于人类思维发展具有十分重要的意义。

1.人类交互学习的特征分析

同人类的个体学习过程不同,交互学习具有其较为显著的特征:若有n个参与人员,各参与人员均会通过对除其自身以外的n-1个参与人员进行同时性的学习,并以此为基础来对自身的行为策略进行改变,即某个参与人员其自身的选择会受到剩余其他参与人员的选择影响,同时也会对其他参与人员的选择带来影响。此特征普遍存在于如今的经济生活当与社会环境之中,因而研究人与人的交互学习模型具有很重要的意义。

本文通过将在人工神经网路中融合入博弈支付函数的结构,并将博弈支付矩阵中各个支付值作为其输入的结点xj以及对手支付值,同时,将参与人相应可进行选择的行动策略作为其输出的结点y,并最终建立了一个人类交互学习的神经网路模型。

2.交互学习神经网路模型的构建

通常而言,重复性的博弈理论中的学习过程通常包括如下两种模型:一种是强化性的学习模型,另一种是强化及环境两者交互性混合学习模型。此两种学习过程模型的各种相应的权重参数均需以实验数据等为依据进行调整。同以上两种学习模式不同,有资料还提出了另一种模式,及以Regret反馈为基础的学习神经网路,此模式可成功进行混合策略博弈中唯一性均衡点的预测。以Regret反馈为基础的学习神经网路为前馈与反馈两种神经网路的结合。对于人工神经网路而言,其实质主要是将众多相对较为简单的神经元在某一网路系统中进行有机组合,以以信息流的方向为依据将其分为前馈与反馈两种神经网路。

将Regret引入到反馈学习中极大程度地改善了神经网路混合策略预测性能的均衡性。Regret等于在对手行为选择已知的情况下参与人员可能能获得的最大支付值同博弈过程实际的支付值之间的差值。此法为通过神经网络对人类的交互学习行为进行了科学模拟,并提出了相应的算法。模型基于单神经元感知器对博弈收益进行了考虑,以便对反馈过程进行修改。此种事后驱动同学习过程相符。参与者在得知同剩余参与者上次行动的选择之后可得Regret值,而后以Regret程度为依据来对自己最佳行动策略进行选择,以逐渐接近最佳策略。也就是说,参与者了解剩余参与者前一次的博弈行动选择之后,会将其目前行动朝着上一次博弈最佳反应方向转变。

3.模型仿真及结果分析

在对10组不同的博弈实验进行MSD准则计算及对比后可知,Regret模型具有相对较好的预测结果。结果显示:在反馈过程中进行Regret变量的引入能够对人工神经网路的性能进行显著的改善。进行Regret模型的构建能够体现如下重要特点,即可对人类交互学习的过程进行有效模拟,就像博弈实验相同。作为自然进化过程中十分重要的特征之一,人类的交互学习过程不仅包括了人与人之间的交互学习过程,还包括了人与自然以及人与自然界中其它生物之间的交互学习。

4.结论

随着人类对思维及知识掌握过程探索及论证的逐步深入,有关人类交互学习的研究已经成为当今领域的研究热点之一。在人工神经网路交互学习的进化过程中,通过对人类的学习方法中的回顾和对比进行效仿来对人工神经网路的连接权值进行有效的更新。通过所构建的交互学习模型进行仿真分析,结果显示,此模型不仅能够对人类的交互学习过程进行较好的描述,还可对博弈均衡状态进行较为有效的预测。

参考文献

[1]李伯虎,柴旭东,侯宝存等.一种新型的分布协同仿真系统――“仿真网格”[J].系统仿真学报,2010(20):5 423-5430.

[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision confidence[J].Nature(S0028-0836),2008,455(7210):227-231.

上一篇:高职单片机技术应用课程教学改革探讨 下一篇:关节臂式柔性坐标测量机测量空间分析