敏感性问卷调查设计与概率估计

时间:2022-10-17 03:27:49

敏感性问卷调查设计与概率估计

[摘要] 敏感性问卷调查因涉及到敏感话题,采取一般调查问卷方式往往无法得到真实准确的结果。基于随机化思想和大数定律的沃纳模型等为解决这一问题提供了理想的策略,即通过对问题的巧妙设计,用非敏感性问题掩盖敏感性问题,将二者有机结合以提高问卷调查的真实性。本文总结了五种敏感性问卷调查的模型并在此基础上提出了新的一种方法,用以比较和借鉴。

[关键词] 敏感性 模型 随机 概率估计

中图分类号:C811

1模型的归纳

1.1沃纳模型

沃纳模型是解决敏感性问卷调查的最基本的模型。根据随机化的思想,该模型将总体划分为互不相融的两类:具有敏感特征的一类A和不具有敏感特征的一类?。这样,总体中的每一个体或者属于A,或者属于?。为估计具有敏感性特征的人在总体中所占的比例 ,在容量为N的总体中进行简单随机无放回抽样(simple random sampling without replacement,简记为SRSWOR),得到一个容量为 的样本。现进行如下的调查:形状大小完全相同的卡片上分别写有问题:“你属于A吗?”与“你属于?吗?”(如“你在考试中作弊了吗?”与“你在考试中没有作弊吗?”)以比例 混合均匀放人暗盒中。被调查者从暗盒中随机抽出一张卡片,根据卡片上的问题向调查者做出是或否的判断,但调查者无权过问被调查者回答的是哪一道题目,从而起到了为被调查者保密的效果。设回答“是”的人数为 ,根据全概率公式,我们有 ,于是 的估计为 。由此可以看出,预先设计的对立问题的比例 不能为1/2。 越靠近1/2,误差越大;当 接近0或1时对被调查者的保密程度就会降低,进而降低了数据的可靠性与真实性。因此 的取值介于0.7至0.8较合适,但也可根据实际情况做适当的调整。若敏感程度较高,则 可取得小一点,但一般不宜低于0.6,若敏感程度较低,则 可取大一点,但一般也不宜高于0.85。

沃纳模型的一种简单变形是将问题的对立性转移到答案的对立性上来。例如在调查人群中患艾滋病人数所占比例的案例中,调查者可以将完全相同的红球与白球按照一定比例 混合放入暗盒中。被调查者从盒中随机摸出一球,若摸出的球是红球,则如实回答是否患有该种病;若摸出的球为白球,则要求说谎,必须做出与真实情况相反的回答。调查者同样无权过问摸球情况以保护被调查者。设被调查样本容量为 ,其中做出肯定回答的人数为 ,则同样有 ,p的估计为 。

1.2西蒙斯模型

西蒙斯模型是对沃纳模型的改进。由于敏感性问题的对立问题仍属于敏感性问题,因而还会在一定程度上引起人们的芥蒂心理。西蒙斯模型利用另一个无关的非敏感性问题代替沃纳模型中的敏感性问题的对立问题,从而巧妙地回避和改善了这一问题的出现。调查方法如下:设A为被调查敏感性问题(如“你在考试中作弊了吗?”),拥有属性A的人在人群中所占比例为 。设置另一非敏感性问题B(如“你的母亲的工作是教师吗?”),且拥有该属性的人所占比例为 。现将写有这两种问题的卡片以 的比例放一盒子中,被调查者随机从盒中随机抽取卡片并做出是或否的判断,而无需向被调查者说明自己抽到那一道题。设肯定回答的人数是 。当样本容量 足够大时,根据大数定律有 ,所以 的估计为 。由于 是非敏感性属性在人群中的比例,因此较容易预先调查获得其估计值。

1.3随机变量和模型

随机变量和模型是对西蒙斯模型的修改与完善,具有更强的保密性,从而使调查结果具有更好地真实性和可靠性。与西蒙斯模型所不同的是,被调查者不是随机选择性回答问题,而是对于敏感性问题与分敏感性问题都要在心中做出判断:若两个问题都是否定的答案,则向调查者做出回答“0”;若两个问题一个是肯定的,另一个否定,则回答“1”;否则,两个问题都是肯定判断,则回答“2”。即被调查者总是回应调查者对于两个问题做出肯定判断的个数,而无需针对每个问题做出回答。设调查中 个被调查者做出“0”、“1”、“2”的回答的分别有 、 、 人,则根据大数定律有 , , 。于是 的估计量有三个: , , 。且三个估计量均为无偏估计量。

1.4双无非敏感性问题辅助问卷调查方法

设A是待调查的敏感性属性,具有属性A的人群所占比例为 。N1、N2是两个相互独立且与A无关的非敏感性属性(例如:N1=你出生在上半年吗?,N2=你手机号的末位数字是9吗?)。调查方式如下:被调查者在心中做出是否具有敏感性属性A的判断,若是肯定的,则向调查者做出是否具有非敏感性属性N1的回答;否则,向调查者做出是否具有非敏感性属性N2的回答。由于被调查者无需向调查者告知任何有关题目的信息,而是直接给出非敏感性问题N1或N2的答案,所以达到了有效保护被调查者隐私的目的,从而获得更为真实有效的数据。

设 为样本容量, 为样本中回答“是”的人数, 、 分别是具有属性N1、N2的人所占比例。则根据大数定律有 ,于是 。由于 与 是非敏感性属性在人群中的比例,因此较容易预先调查获得其估计值。(在本问卷设计中,当样本容量 足够大时,我们可以近似认为 为1/12, 为1/10。)

1.5多种属性特征模型

设一敏感性问题包含m种互斥的类别U1、U2、U3……Um,为调查每一类别在总体中所占的比例p1、p2、p3……pm,可抽取一个容量为n的样本,完成以下的调查:在M张完全相同的卡片上标记数字0、1、2……m并放入暗盒中,其个数分别为n0、n1、n2……nm( )。被调查者从暗盒中随机抽取一张卡片,根据卡片上的数字做出相应的回答:若抽到的卡片数字为0,则需如实回答自己属于U1、U2、U3……Um中的那一类的下标(例如被调查者属于U3,则需回答3)。若他抽中的卡片数字为 ,则不管他属于哪一类,都回答 。在此过程中调查者无权过问被调查者抽到的卡片数字是多少。设经调查统计回答 的人数为tk( )。这样,有 ,所以pk的估计值为 (1≤k≤m)。

二、对现有模型的改进――否定与非敏感性问题混合模型

基于沃纳模型的变形调查方法与双无非敏感性问题辅助问卷调查方法的优点,考虑能否将二者融合,既避免被调查者对敏感性问题做出直接的判断,又混合如非敏感性问题达到保护被调查者隐私的目的。出于这两点的考虑,我们将现有模型加以综合和改进,得到否定与非敏感性问题混合问卷调查法。

在调查中,被调查者同时看到两个问题,一个是敏感性问题A,另一个是与之无关的非敏感性问题B。要求被调查者首先在心中对问题A做出判断,若答案是肯定的,则要求说谎,

向调查者做出否定的回答;若答案是否定的,则向调查者做出非敏感性问题B的肯定或否定的判断。设从总体中抽取的样本容量为 ,其中做出肯定判断的有 人。要求的敏感性属性在人群中所占比例为 ,非敏感性属性所占比例为 。当 足够大时,根据大数定律,有 ,于是 的估计为 。

参考文献

[1]石艳芬.敏感性问题调查的基本方法与比较[J].统计与信息论坛.2002(17).

[2]赵晔,檀亦丽,万星火.沃纳模型在大学生敏感性问题调查中的应用.[J].石家庄铁道学院学报.2005

[3]王春平.郭继志.翟强.医学属性特征敏感性问题的调查设计与分析.[J]中华医学研究杂志.2004

上一篇:唐河支曹林场段采砂规划及治理对策分析 下一篇:浅谈工程计量与合同管理