人工社团协商竞争模型的研究及其仿真

时间:2022-10-11 07:17:11

人工社团协商竞争模型的研究及其仿真

摘要:针对当前人工社团竞争研究缺乏同时考虑不对等竞争情报和信息交流对主体行为选择的影响问题。本文根据竞争中的信息交流特点提出从协商竞争角度探讨信息不对等性和信息沟通机制对主体行为的影响以及主体的历史信息学习能力。构建协商竞争宏观模型框架并提出新的学习算法—历史信念学习算法。对主体未学习与学习后的实验结果进行对比,对比结果表明经过学习主体能够做出更有益于其利益追求的行为演化,验证历史信念学习算法的有效性。

关键词:协商;竞争;学习;仿真

中图分类号:TP311.52 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-03

一、引言

生活中存在的供货商与消费者之间关于价格利益的竞争,电子商务市场中交易主体的动态竞价,合作伙伴的选择竞争等都存在一个共同点:竞争双方拥有不对等的竞争情报并存在一定的信息交流。不对等信息影响主体在竞争中的地位,但一定的交流机制使得主体不仅可以获得自身历史信息而且可以在交流中获取对手历史信息。当前人工社团竞争研究缺乏对主体信息不对等性和交流机制的研究,也缺乏对两者关系的研究,影响主体行为选择参考信息的完备性。为改进这一问题,本文针对上述两种机制特点提出以协商竞争角度研究存在信息不对等性和交流的人工社团竞争问题,分析协商竞争的环境、机制、资源等问题,构建人工社团协商竞争模型框架并提出历史信念学习算法。通过历史信念学习的主体可以比未学习主体获取更多有关竞争对手的历史信息,提高主体行为选择的智能性和正确性。

二、协商竞争

为构建协商竞争模型框架,本文从三方面对协商进行研究[1][2]:(1)协商协议:所有参与竞争主体都必须遵守的一系列竞争规则集合。(2)协商目标:协商参与者希望通过协商达到的目标。(3)协商策略模型:协商过程也是策略选择过程。

三、协商竞争模型框架

(一)协商竞争宏观模型框架NCpe-scape

为进一步分析人工社团协商竞争中的竞争环境和主体学习行为,本文接着构建协商竞争宏观模型NCpe-scape,模型用七元组表示,各元素含义如下:

N:参与协商竞争的主体集合;

E:协商竞争环境;

O:协商竞争目标,各主体为此目标而进行争夺;

P:协商竞争协议,主体在竞争过程中必须遵守的规则集合,它对主体的行为起约束作用;

S:协商竞争策略,主体在竞争过程中采取的行动策略集合;

R:协商竞争的结果状态集合,包含协商成功,协商失败和非正常终止;

L:协商竞争中主体的学习机制,主体根据当前环境信息和历史信息进行学习。

模型框架如图1所示:

图1 协商竞争模型框架

在上述模型框架中,代表竞争环境的二维网格中分布着竞争参与主体和资源,每个竞争主体在二维网格中都有一个确定的空间坐标位置,每个主体都包含标识和属性集合,并携带一定含量的资源。初始时,环境资源及主体资源由资源分配机制确定。拥有资源和能量的主体制定协商竞争目标,在协商竞争协议的约束下选择协商竞争策略展开竞争行为,主体间的行为交互通过标识调节。竞争系统中的主体具有一定的学习能力,这种学习能力利用历史信念学习表征,主体通过学习历史信息参考模型增强竞争策略的成功率和智能性,通过积累历史经验提高自身决策能力。

协商的终极目标是主体为自身争取更多的利益,为验证宏观模型框架的可行性及正确性,我们在下文构建以协商获取最大利益为目标的利益驱动协商竞争模型。

(二)利益驱动协商竞争模型BNC-scape

利益驱动协商竞争模型BNC-scape定义为七元组,其中:

1.BN表示协商参与主体集合,包含两种类型的主体集合可定义为BN=,其中,BA1,BA2分别表示第一、二类主体;

2.BE表示协商竞争环境;

3.BO表示争取最大利益的协商目标;

4.BP表示利益驱动协商竞争协议;

5.BS表示利益驱动协商竞争策略,具体策略反映在主体的协商行为选择上;

6.BR表示利益驱动协商竞争结果状态集;

7.BL表示利益驱动协商主体的学习策略。我们将此学习机制定义为历史信念学习HBL。

(三)历史信念学习HBL

协商竞争的最大特点在于主体间的交流和历史信息的可获取性,竞争主体在交互过程中不断收集相关对手的历史信息并利用这些信息优化行为决策。可利用信息由三部分内容组成:自身历史信息、对手历史信息与环境信息,分别用 , 表示,并用 表示三者的重要性权重。对手历史信息又可分为:对手历史最优行为、对手历史平均信息与对手历史最差行为,分别用 , , 表示,并用 表示三者的权重系数。主体的信息参考模型如下式:

(1) (2)

主体的学习机制描述如下:

(1)主体根据交互的历史信息实时调整参数,并根据信息参考模型以效用最大化为目标从行为策略侯选集中选择一个最佳行为策略;

(2)主体根据自身历史信息和当前环境信息预测交互对手在该阶段做出的行动策略S1,根据对手的历史信息预测交互对手在该阶段做出的行动策略S2;

(3)观察对手的实际策略与主体的预测策略之间的差值,如果实际策略更接近S1,则强化主体自身历史信息和环境信息的权重,如果实际策略更接近S2,则强化对手历史信息的权重。

四、仿真模型设计

以价格协商为应用背景,在宏观模型框架的指导下设计一个房地产市场中开发商与消费者关于房价利益的协商模型PBNC-scape。房子价值利用hedonic定价模型确定。

首先介绍PBNC-scape设计与利益驱动协商竞争模型之间的映射关系:

1.开发商和消费者代表两种不同类型的协商主体。BN=,DA表示开发商主体,CA表示消费者主体;

2.在二维网格环境中分布房子及影响房子价值的公共设施,为简化分析,本文构建的模型公共设施物只涉及医院,商场,学校,公交站点和工厂这几类具有标志性作用的建筑。医院,商场,学校和公交站点对房子价值起正反馈作用,工厂因噪声污染等原因对房子价值起负反馈作用。因为数据收集问题,我们假设所构建模型的房子的建筑结构都是一样的,只探讨区位和不同邻里环境属性对房子价值的影响;

房子的Hedonic价值函数如下:

(3)

其中,Pb表示房子的基本价值,a1,a2,a3表示三个影响因子的权重系数, 表示误差项。

3.开发商对房子的最低限制价格与其报价之间的差值定义为开发商剩余价值,双方协商竞争的目标是获取最大剩余价值;

4.每个周期开发商和消费者对欲交易的房子进行价格协商博弈[9][10]。协议包含:

(1)双方在区间内报价,开发商报价区间[spmin,spmax],消费者报价区间[cpmin,cpmax]。

(2)T表示消费者未知的开发商最低限制价格,R表示开发商未知的消费者最高可接受价格。开发商估计消费者的R是[cmin,cmax]上分布的自由变量,消费者估计开发商的T是[smin,smax]上分布的自由变量。

(3)不成功的报价对下一回报价具有参考价值。开发商新的报价将低于旧的报价同时高于消费者旧的报价。

(4)模型引入折算系数, 代表开发商的折算系数, 代表消费者的折算系数。开发商行为模型描述如下: ,消费者行为模型描述如下: 。其中,DP,CP表示开发商和消费者各自对房子的Hedonic定价,开发商根据DP设置房子的最低限制价格T,消费者根据CP设置房子的最高可接受价格R。

5.协商轮数利用泊松分布指定;

6.根据历史信念学习算法,在某个位置上经过多个周期协商后仍未售出的房子在 周期时开发商可以进行历史信念学习,学习模型为:

4)

(5)

其中, 表示开发商根据自身历史报价信息计算出的报价参考值, 表示开发商根据当前环境下的供求关系计算出的报价参考值, 表示开发商根据该位置协商交互过的消费者报价信息计算出的报价参考值。

五、仿真结果分析

实验在仿真平台Swarm下进行,实验数据在参考相关文献关于hedonic属性取值的范围内随机取值。

房子,医院,商场,公交站点,学校及工厂随机分布在40*40的二维网格中。房子数量为200,开发商数量为40,消费者数量为400,属性L、S、N的基本价值在4000到4500之间随机取值。公共设施建筑物起反馈作用的界限距离在15到20之间随机取值

首先,我们考察主体无学习情况。

(一)无学习

主体不具有学习能力时其报价策略是区间内随机取值。经过100多个仿真周期,房子平均价值—时间曲线与房子平均交易价格—时间曲线如图2(a)(b)所示。

图2 主体未学习下的时间图

从图2(a)我们观察到随着时间推移,房子价值越来越高,在第50和80周期附近房子价值出现明显的上升,说明设计的模型规则能够反映房子价值随市场环境的变化而变化。房子平均价值并不是一瞬间增高的,需要经过一个波动的过程,实验结果验证了这一点。从图2(b)中我们观察到房子平均交易价格也在第50和80周期附近出现跳跃,这与图2(a)的结果是相吻合的。说明模型中竞争双方的报价规则和报价策略是可行的,协商过程中动态信息的调整也是正确。

(二)学习

添加历史信念学习机制后的房子平均价值——时间曲线与房子平均交易价格——时间曲线如图3(a)(b)所示:

图3 主体学习下的时间图

从图3(a)我们观察到房子平均价值在前45个周期内存在小波动,但基本平衡,在第45周期时发生价值跳跃。在第75周期附近出现第二次跳跃。图3(b)中,房子的平均交易价格也相应在第45周期和第75周期附近发生跳跃。对比图2和图3,我们发现添加学习后的房子平均价值和平均交易价格跳跃周期均早于未学习情况,而且对比中可以发现添加学习机制后,房子平均交易价格的波动幅度明显小于未学习情况,说明通过学习开发商制定出的报价更加接近消费者可接受区域,更加合理,协商次数减少,协商成功的机率增大,能够在更短的时间内与消费者达成一致意见,利润增长幅度也呈上升趋势。通过实验结果,我们验证了历史信念学习的有效性。

六、结论

从协商角度分析信息不对等和交流的人工社团竞争问题可以更贴切地反映竞争主体行为特点,提高主体行为选择参考信息的完备性,结合竞争环境和协商特点制定出的学习算法可以帮助主体做出更符合其利益追求的行为演化与选择,历史信念学习算法可以帮助主体有效地汲取历史经验,最大化主体价值。任何一个宏观模型都不可能既准确无误又完整地反映实际情况,只能在某种程度上给予抽象性和战略性的指导,因此下一步工作是研究竞争系统中其他细节因素对模型的影响和作用。

参考文献:

[1]Rahwan l,Ramchurn S D,Jeaning N R,et al.Argumentation2 based negotiation.Knowledge Eginerring Review,2004:343-375

[2]Jennings N R.Automated negotiation[C].Manchester,UK:Proc 5th Int Conf on The Practical Application of Intelligent Agents and Multi-Agent Systems (PAAM-2000),2000:23-30

[3]王立春,陈世福.多Agent多问题协商模型[J].软件学报,2002,13(8):1637-1643

[4]王娟,柴玉梅.基于在线学习的多Agent协商[D].郑州:郑州大学,2006

[5]杨清平,蒲国林,王刚,邱玉辉.基于交互历史的多Agent自动协商研究[J].计算机科学,2008,35(9):226-228

[6]周庆,黄颖颖,陈剑.基于主体的动态竞争模型的设计与仿真[J].系统仿真学报,2005,17(8):1977-1981

[7]曹先彬,高隽,王煦法.基于生态竞争模型的遗传强化学习[J].软件学报,1999,10(6):658-662

[8]王德,黄万枢.Hedonic住宅价格法及其应用[J].规划方法,2005,29(3):62-70

[9]Holland,J.H.,Asset Pricing under Endogenous Expectations in an Artificial Stock Market,Santa Fe Institute Working Paper,et al,1997:96-12-093

[10]唐亮贵,程代杰.一个基于博弈学习的多主体竞价模型[J].计算机工程与应用,2006,17:76-78

[作者简介]陈凤钦(1985.11-),女,籍贯:福建莆田,学历:硕士,职称:助教,研究方向:人工生命、智能计算。

上一篇:一种高性能的大型多人在线角色扮演游戏服务器... 下一篇:校园二手商品交易平台的设计与实现