一类随机截尾Simmons模型及基于一种模糊均值算法识别分类的应用

时间:2022-09-03 05:18:06

一类随机截尾Simmons模型及基于一种模糊均值算法识别分类的应用

摘要:文章在随机截尾模型基础上建立了一种随机截尾的Simmons模型,讨论了有限总体下敏感性问题的抽样调查方法,以及利用这种方法所得出的估计量,并给出了无偏与方差估计量公式。还提出了一种模糊均值算法,更加有效地对训练样本进行比较准确模糊分类。

关键词:Simmons模型;抽样调查;估计;模糊均值算法

一、随机截尾的Simmons模型

(一)背景与目的

被测试者对于样本特征有着较大的敏感性,为使之更好地配合如实提供特征信息,可以建立一种随机截尾的Simmons模型,即在随机截尾模型基础上增加一个装置产生服从均匀分布的随机变量。正是这一装置“滤去”了被测试者的敏感性,从而可以准确地估计出特征向量(体重,腰围)的估计平均值。

(二)假设与约定

第一,x=(x1,x2)T为样本体重与腰围特征向量。x1=(x11,x21,…,xn1),Xi1为第i个女生ai体重数据;x2=(x12,x22,…,xn2)T,Xi2为第i个女生ai腰围数据;X(i)=(xi1,xi2)T为ai的两特征向量,(i=1,2,…n)。

第二,假设xi1∈[42,63] [c1,c1+t1](千克),xi2∈[16,27] [c2,c2+t2](市寸),(i=1,2,…n)。

第三,假设样本x(1 ),x(2),…,X(n)相互独立同分布,f(x)=f(x1,x2)为x=(x1,x2)的概率密度,f1(x),f2(x)为相应边际密度,μ=(μ1,μ2)为x=(x1,x2)的数学期望。

第四,在测试实验中的两次抽卡所显示的数字Y,Z分别为服从[c1,c1+t1],[c2,c2+t2]上的均匀分布。

第五,已知样本容量n=20。

(三)实验步骤

第一,取3个空盒。

1号盒子放入红、白、黑、绿4种色小球,放入比例为1:1: (0<p<1);2号放入22张卡片,卡片上标有重数据42、43、…、63;3号放入12张卡片标上腰围数据16、17、…、27。将3个盒子分别摇匀。

第二,每位被测试者有放回地先从1号盒摸取一小球,并作答:

取到红、白、黑球分别作答1、0、,取到绿球则转到下一步。

第三,取到绿球者接着一次性从2号盒抽取两张卡片再放回摇匀,将该两张卡片上的数字Yi1、Zi1与自身的特征数据Xi1作比较,并作答:

若Xi1>max{Yi1,Zi1},作答1;若min{Yi1,Zi1}≤Xi1≤max{Yi1,Zi1};作答0;若Xi1<min{Yi1,Zi1},作答-1。作答完毕最后从3号盒一次性抽取两张卡片再放回摇匀,将该两张卡片上的数字Yi2、Zi2与自身的特征数据Xi2做比较,并做类似回答。

第四,记被测试者从1号盒子摸取小球、从2号盒子抽取卡片、从3号盒子抽取卡片时的作答值分别为βi,αi1,αi2。

对X1,X2均沿用数据βi,则最后得到的数据记为γi1,γi2,(i=1,2,…n)。

(四)模型的建立与分析

由上面实验结果有:

aij=1,xij>max{Yij,Zij}0,min{Yij,Zij}≤Xij≤max{Yi1,Zi1}-1,Xij<min{Yij,Zij}

βi=1,红球0,白球-1,黑球,(i=1,2,…n;j=1,2)

分别求解μ1,μ2的无偏估计与方差估计之表达式:

第一,μj的无偏估计表达式:(j=1,2):

本均值为:

γj=γij①

μj的无偏估计:

j=cj+ ②

第二,通过γij的方差求得μj的方差估计表达式(j=1,2):

估计量μj的方差:Var(μj)= + 于是μj的方差估计为:

Var( j)= + ③

(五)数据统计与结果

从上面可以看出,Var( j)关于p单调递增,综合考虑取p=0.4,则在1号盒子中放入30个小球:白球4,红球4,黑球4,绿球18。

通过测试实验得到以下样本数据(见表1):

βi所在列为空白说明取球者αi摸取的球为绿色。

根据表1的数据及①、②、③式可求得所要考察的两特征估计值。

样本均值:γ1= ,γ2=0

无偏估计: 1=54.83 2=22.00

方差估计:Var( 1)=13.54,Var( 2)=4.50

二、基于一种模糊均值算法的识别分类

所要识别的为参加测试男生“偏胖”、“中等”与“偏瘦”。算法给出了各男生所属类别的模糊矩阵,在此基础上构造出模糊集并进行了知识推理。

记号:第一,X={x1,x2,…,xn},xk为第k名男生ak体重,k=1,2,…,n;第二,论域A={[z1,z2),[z2,z3),[z3,z4],(z4,z5]}为体重区间集合z1=48,z2=53,z3=58,z4=63,z5=69;第三,识别类集合Ω={C1,C2,…,Cm},m为识别的模式类个数;第四,类中心集合W={y1,y2,…,ym},yi为Ci类中心,i=1,2,…,m;第五,模糊矩阵,U=[uij]m×n第i行j列元素uij为aj属于类Ci的隶属度;第六,m=3,n=20,分别表示模糊集偏胖、中等与偏瘦。现有测得样本数据(见表2):

(一)模糊均值算法

1、算法依据

构造加权指数函数:L(U,W)=(uik)t|xk-yi|2,使得L(U,W)取最小。应用Lagrange乘子法可得:

定理:L(U,W)局部取最小的充要条件(对所有的1≤l≤m,1≤k≤n,xk≠yl):

uij=

yi=

2、算法步骤

第一,对数据集X={x1,x2,…,xn},任意给定初始模糊矩阵U(0 )=[uij(0 )]m×n;第二,计算均值yi(s )= ,s为叠代次数(1≤i≤m,s=0,1,2,…);第三,U(s )=[uij(s )]m×n替代为U(s+1 )=[uij(s+1 )]m×nuij(s+1 )= ;第四,任意给定正数ε(0<ε<0.5),若||U (s+1)-U (s) ||{uij(s+1 )-uij(s )}<ε则停止算法,否则令s=s+1返回至第二步骤。

3、算法实现与分析

第一,算法实现。

对表2中的数据,事先任意给定初始矩阵:U (0 )=[uij(0)]m×n

U (0)=

取t=2,ε=0.4,算法终止于s=1,有U (1 )-U (0 )=0.38<ε且最终矩阵为:U (1 )=[uij (1 )]m×n为:

U (1)=

第二,结果分析。

比较U (0 )与U (1 )中各元素(隶属度),第14、16、20列变化较显著(见表3):

uij(s )为aj属于类Ci的隶属度(s=0,1;1≤m≤3;1≤j≤20)。

从表3可看出:a16与a20在事先基本上将之分类于c3(偏瘦)或者c2(中等),算法实现后a16与a20明显识别为c3(偏瘦);对于a14则识别结果不同,由原来属于类c2变成现在的c3类。

由表2中可知,a16、a20、a14所对应的x16、x20、x14分别为48.8、48.8、53.8都小于均值58.22(千克),三者应该分类为c3(偏瘦),识别结果是恰当的。

如果将ε=(0.4)取到更小,则经过这一模糊均值算法,其结果更为准确。

参考文献:

1、徐春梅,吕恕.改进的随机截尾模型[J].统计与信息论坛,2006(2).

2、赵晔,檀亦丽,万星火.沃纳模型在大学生敏感性问题调查中的应用[J].石家庄铁道学院学报,2005(4).

3、陈根龙.随机化回答技术在敏感性问题调查中的一种新应用[J].统计与决策,2007(3).

4、诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005(3).

5、王元珍,王健,李晨阳.一种改进的模糊聚类算法[J].华中科技大学学报,2005(2).

6、刘蕊洁,张金波,刘锐.模糊c均值聚类算法[J].重庆工学院学报,2008(2).

(作者单位:余喜生,西南财经大学数学学院;余炳红,江西省鄱阳县四十里街第二中学)

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”

上一篇:熵权分析法在建设项目优选问题中的应用研究 下一篇:FDI影响我国服务贸易竞争力的实证研究