定量调查方法范文

时间:2024-01-15 18:00:12

定量调查方法

定量调查方法篇1

关键词:土壤污染调查;地统计条件模拟;污染概率;局部空间变异;污染区范围;布点优化;

作者简介:谢云峰(1981—),男,副研究员(博士);E-mail:xieyf@craes.org.cn;

1引言(Introduction)

土壤采样调查是获取土壤污染物空间分布信息最重要的手段,采样调查结果的精度直接影响污染风险评价结果的准确性和风险管理决策的合理性.土壤污染调查包括土壤样点布设、样品采集、污染物含量分析等环节.实际工作中,通常认为污染物分析方法的准确性是影响污染物调查准确性的最主要因素(Crumblingetal.,2001),而忽略了土壤采样布点方案的重要性.大量研究表明,污染物在土壤中的空间分布表现出明显的空间变异性,人类活动影响越大的区域,局部变异程度越大(Thompson,1996;丛鑫等,2009;杜平等,2006;张娟等,2014;郑一等,2003).针对空间变异性较大的环境要素,样点布设方案是影响调查结果准确性最主要的因素之一.Jenkins等(1997)对土壤中三硝基甲苯污染的调查结果表明,至少95%的变异度(统计方差)是由采样位置导致,而含量分析(室内分析和现场分析)手段对变异度的贡献不超过5%.其他类似研究也表明,土壤采样导致的不确定对污染物含量测定不确定性的贡献超过50%(Argyrakietal.,1997;Theocharopoulosetal.,2001;Jenkinsetal.,1999).因此,科学合理的土壤采样布点方案对保障污染调查结果的精度非常重要.现有的土壤污染调查布点方法主要包括判断性采样和非判断性采样(姜成晟等,2009),其中,判断性采样主要根据已有先验知识设计采样布点方案,并在潜在的高污染风险区域加大采样密度(UKEnvironmentAgency,2000);当缺乏场地污染物分布的背景信息时,就只能采取非判断性采样方法,如随机采样、均匀网格布点采样等(Thompsonetal.,1995;USEPA,1989).传统的土壤污染调查布点方法主要用于对污染物总体(平均含量)的最佳估计(Brusetal.,1999),样本量主要取决于污染物含量的空间变异程度.土壤污染治理过程中,污染调查主要关注目标污染物的超标程度及污染区范围.因此,以总体估计为目标的传统土壤污染调查布点方法对土壤污染范围的估计精度通常不能满足修复决策的需求(刘庚等,2013;谢云峰等,2010).近年来,应用地统计学方法来提高土壤污染调查精度已成为研究热点之一(D'Or,2005;Demougeot-Renardetal.,2004;Juangetal.,2005;VanGroenigenetal.,1999;VanToorenetal.,1997),该方法基于土壤污染物空间分布的自相关性,优化土壤调查布点空间布局,可提高土壤污染调查效率(Burgessetal.,1981;Demougeot-Renardetal.,2004;Englundetal.,1993;阎波杰等,2008;赵倩倩等,2012).虽然基于地统计学和条件模拟方法的样点布设方法效率最高(Jonesetal.,2003),但在土壤污染调查过程中却很少用于土壤污染调查布点优化(Verstraeteetal.,2008).

为了获得准确的土壤中污染物空间分布信息,土壤污染调查通常包括污染初步调查、污染详查等多个阶段.初步调查的主要目的是识别土壤主要污染物及潜在污染区域,通常样本量较少.污染详查是在初步调查基础上,在潜在的污染区域增加样点,确定污染区的范围及其污染程度.土壤污染调查方案的误差主要包括污染区被低估和清洁区被高估(Marchantetal.,2013;Ramseyetal.,2002),其中,前者会导致污染区面临的污染风险不能得到有效控制,后者会导致不必要的修复投入.为了获取准确的污染区信息,通常需要增加样本量,但这会导致采样分析成本的增加.高效的采样方案是将采样调查成本与调查不确定性导致的经济损失的总成本降到最低(Ramseyetal.,2002).采样方案优化的目的就是要寻求降低污染修复不确定性的最佳样本量(Demougeot-Renardetal.,2004).土壤污染物的空间分布受污染来源、环境条件、污染物性质等因素的综合影响,其在空间上表现出不同程度的空间相关性和变异性,对土壤污染物空间变异性的描述准确与否是影响调查结果的关键.本研究结合土壤污染调查的特定需求,提出基于污染概率和污染物局部空间变异特征的土壤污染调查加密布点方法,以提高土壤污染调查方法对污染区范围和污染程度的估计精度,并为土壤污染调查提供方法学支持.

2土壤污染调查加密布点方法(Samplingdesignoptimizationprocedurefordetailedsoilpollutioninvestigation)

土壤污染调查结果的不确定性主要出现在污染物含量过渡区域(刘庚等,2013;谢云峰等,2010;Xieetal.,2011),为此,该研究针对污染调查结果的不确定性,提出土壤污染调查加密布点的工作流程和方法(见图1).土壤污染调查加密布点的2个核心问题分别为确定需要加密布点区域和样点布设方法.

2.1加密布点区域的确定方法

由于土壤污染治理仅关注污染物含量超过相关环境标准或修复目标值的区域,因此,提高污染区范围的估计精度就显得尤为重要,加密布点法正是基于这一需求而提出.由于初步调查阶段已经获得了一定的污染物分布信息,所以在加密详查阶段只需要针对污染分布信息不确定性较大的区域进行补充调查即可,其中,不确定性区域是指污染物空间分布精度低于修复决策需求精度的区域.

为了定量评估土壤污染调查的不确定性,该研究引入土壤污染概率方法.基于初步调查数据,利用概率制图方法预测土壤污染物超过环境标准或修复目标值的概率,常用的概率制图方法有地统计条件模拟方法、指示克里格方法等.其中,地统计条件模拟方法包括多种模拟算法,如序贯高斯模拟、序贯指示模拟等.污染概率的取值范围为0~1,概率值越高,可优先判定为污染土壤;相反,污染概率值越低,可优先判定为清洁土壤.概率制图结果中,概率值介于高值和低值之间者即为不确定性区域,需要进一步补充调查确认.假定某污染土壤地统计条件模拟的污染概率阈值范围为0.1~0.8,设定污染概率阈值和清洁概率阈值分别为0.5和0.3,则污染概率为0.5~0.8者为污染区域,0.1~0.3者为清洁区域,0.3~0.5者即是需要加密调查的区域.

不确定性区域污染概率值较低的可能原因为:①区域内污染物含量较低;②区域属污染区域,并且样本量较少.为了进一步探究其具体原因,该研究引入局部变异特征方法.基于初步调查数据,分析土壤污染物含量的局部变异特征(包括变异系数、方差、自相关性等),如果局部变异性较大,表明土壤中污染物含量空间分布差异较大;反之,则表明污染物含量空间分布差异较小.对于局部变异性较大者,通常是污染物含量高值区向低值区的过渡区域,也是调查结果不确定性较大的区域;对于变异性较小者,通常是高值集中或低值集中的区域,调查结果的可靠性较高.因此,根据土壤污染物的局部变异系数,将土壤污染调查结果划分为不确定性区域和确定性区域.假定某污染土壤局部变异系数为20%~200%,设定变异系数阈值为100%,则变异系数为100%~200%者为不确定性区域;低于100%者为确定性区域.

综合污染概率和局部空间变异系数确定的污染调查不确定性区域,即为污染调查加密布点的目标区域.

2.2不确定性区域样点布设方法

不确定性区域样点布设包括加密样点的数量和样点的空间位置.其中,加密样点数量主要与不确定性程度相关,不确定性较大的区域,加密布设的样本量也较大;样点的空间位置主要与污染物含量空间变化趋势相关,主要利用趋势分析方法分析土壤污染物空间变化规律,沿着土壤污染物含量变化的方向布设加密样点.

本研究提出的污染调查加密布点方法的主要目的是为提高污染区范围的估计精度.在初步调查结果的基础上,结合污染概率和局部变异系数方法确定加密布点的目标区域,再根据土壤污染物含量分布的空间变异性及其变化趋势,确定加密样点的布设方案.该方法可优化加密布点的位置,降低加密布点的数量,提高加密布点的效果,从而在保证调查精度的前提下,降低调查成本.

3加密布点方法案例验证(Validationofthesamplingdesignoptimizationprocedurefordetailedsoilpollutioninvestigation)

3.1案例区概况

案例数据来源于某重金属污染场地,场地面积约14.50km2.按照200m间隔进行均匀采样,在部分高污染区域适当增加样本量,共采集359个土壤样品.土壤污染调查结果表明,土壤重金属Cu、Pb、As、Cd等污染物都存在不同程度的污染.以该场地土壤Cd污染为例,开展土壤污染调查详查加密布点优化方法研究.

3.2样点加密布点方案

案例验证研究过程中并不实际开展土壤污染初步调查布点取样,以及初步调查结果分析和详查加密布点工作.而是利用案例场地已有的359个调查数据,采用空间抽样的思路,模拟开展土壤污染初步调查和加密详查布点过程.具体操作步骤为:首先基于案例数据的359个样点数据,进行模拟的土壤污染初步调查.根据图1的工作流程可知,土壤污染物空间变异特征研究和土壤污染不确定性区域确定是土壤详查加密布点的2个最重要的环节.地统计学的半方差分析方法是最常用的空间变异特征研究手段之一,为了获取比较准确的土壤污染物的空间分布规律,需要有足够的样本量.因此,在初步调查阶段,将研究区域划分为10×10的网格,落在网格内的土壤样点作为初步调查样点,当网格内有多个土壤样点时,随机选取其中一个,由此共获得土壤初步调查样点97个,样点间平均距离约为386m.在初步调查的97个样点数据的基础上,利用本研究提出的加密布点方法进行加密布点.具体步骤为:基于初步调查数据,利用地统计学方法分析场地土壤Cd含量(w(Cd))的空间分布规律.利用条件模拟方法预测该场地土壤Cd污染概率(图2a).基于污染概率预测结果,设定污染概率阈值(Pt)和清洁概率阈值(Ct),污染区域确定方法如式(1)所示.土壤Cd污染概率阈值和清洁概率阈值分别设定为0.8和0.2,基于污染概率划定的不确定性区域见图2b;在此基础上,结合土壤污染局部变异特征(图2c),将局部变异性大于变异系数阈值(CVt)的区域划定为不确定性区域(图2d),变异系数阈值设定为局部变异系数最大值的75%(式(2)).综合污染概率和局部变异系数的结果,即为土壤污染详查布点的优先区域,根据土壤污染物空间结构分析结果,沿着污染物含量变化的方向确定加密样点的位置(图3a).由于该研究是模拟研究,如果在最佳的采样位置没有样点数据,就选择邻近样点作补充,土壤详查加密样点为57个,布点方案见图3b.将加密布点后的污染调查结果与案例场地359个数据获得的结果进行对比,评价加密布点的效果.

式中,Rp为污染概率分区,Z(x)为条件模拟预测的土壤污染物含量,Zc为土壤污染评价标准,Pt为污染概率阈值,Ct为清洁概率阈值,Rcv为污染变异系数分区,CVx为局部变异系数,CVt为变异系数阈值.

3.3数据处理方法

利用GS+7.0软件进行土壤污染物含量的空间结构特征分析.样点污染物含量局部变异特征是在样点VORONOI图的基础上,借助ArcGIS10.1的GeostatisticalAnalyst工具,计算每个样点及其邻近样点的变异系数.采样网格、初步调查样点设计及所有空间制图均在ArcGIS10.1软件中实现.土壤污染物含量条件模拟及污染概率计算在GSLIB(GeostatisticalSoftwareLibrary)中实现(Journeletal.,1998).地统计学条件模拟方法较多,该研究采用最常用的算法之一序贯高斯模拟方法(SequentialGaussianSimulation,SGS)(谢云峰等,2015),该方法算法简单、灵活、计算方便,其基本思路为:根据现有样点数据计算待模拟点污染物浓度的条件概率分布,从该分布中随机取值作为模拟实现;将得到的每一个模拟值,连原始样点数据一起作为条件数据,进入下一个点的模拟.

3.4结果与讨论

3.4.1土壤Cd统计特征的估计精度

由表1可见,土壤Cd污染初步调查样点(97个)与污染详查样点加密后(154个)的统计特征很相似,平均值差异仅为0.01mg·kg-1.加密详查后样本的变异系数降低.与总体样本相比,初步调查和加密详查这2个阶段采样的Cd平均值都偏高,误差为5.40%.变异系数较总体分别降低2.79%和6.71%.初步调查平均值的估计精度较高,而加密详查并没有进一步提高平均值的估计精度.在污染详查阶段,由于在土壤污染空间变异较大的区域增加了样点,因此,其变异系数降低.

3.4.2土壤污染区面积的估计精度

土壤污染调查重点关注的是污染信息的识别精度.初步调查和加密详查阶段,根据样点w(Cd)超标率(表2)估算的污染区面积所占比例分别为68.04%和70.13%,比所有样本的估算结果分别高3.14%和5.23%.污染概率预测结果表明,当污染概率阈值为0.8时,污染概率预测的污染区面积所占比例在53.58%~57.84%之间,比样点超标率估计结果低7.06%~16.39%.基于超标率估算污染区面积,意味着当某个采样网格内的土壤样点污染物含量超标时,则判定该网格超标.样点加密详查后,增加的样点都位于污染概率较高的区域,因此,总体样点中污染区域样点的比例增加,导致污染面积估计结果增大.

初步调查和加密详查这2个阶段估计的污染区面积非常接近,样点加密后污染概率预测的污染区面积仅增加0.16%,初步调查与加密详查估算的面积均小于总体样本的估计结果,污染面积低估4.10%.为了评价污染区范围空间位置的预测精度,将不同采样阶段预测的污染区范围与总体样本预测的结果进行空间差值运算,并根据差值结果将污染区空间位置预测精度分为相同、低估和高估3种情况.相同表示污染程度预测结果一致,低估表示污染区被预测为清洁区,高估表示清洁区被预测为污染区(图4).从污染区的空间位置精度来看,初步调查污染区面积预测的准确度为79.35%,分别有12.45%的区域污染程度被低估,8.20%的区域污染程度被高估.加密详查后,污染区面积预测的准确度提高到86.10%,污染程度被低估和被高估的面积分别降至9.00%和4.90%.

土壤Cd平均值估计结果表明,在初步调查阶段,其估计精度就已达到94.00%以上,而污染区的估计精度仅为79.35%.表明在土壤污染调查过程中,平均值或土壤污染统计特征的估计精度,并不能反映污染区范围的估计精度.土壤污染治理过程中,污染区空间分布信息比平均值更重要,直接影响到修复成本的估计.本研究提出的土壤污染详查加密布点方法,在保证土壤污染总体平均含量估计精度的前提下,显著提高了污染区面积的估计精度;加密详查后,污染区面积的估计误差为4.10%,空间位置精度为86.10%,比初步调查精度提高了6.75%;土壤污染调查的样本量显著降低,初步调查和加密详查的样本量仅为总体的42.90%.

本研究的样点优化思路是在不确定性较大的区域内增加样点,不确定性区域的界定标准为条件模拟的污染概率和局部变异系数.从图2可知,不确定性区域主要分布在污染区边缘,在这些区域增加样点密度,能显著提高污染区空间位置精度.初步调查过程中,污染程度被低估时,污染区域被误判为清洁区域(见图4左下角和左上角的绿色区域);样点优化过程中,清洁区域不会补充调查样点,因此,优化后的结果仍然是被低估.污染程度被低估与初步调查布点、污染概率阈值选择有关.由于没有污染物分布相关的背景信息,网格随机采样布点法对总体平均含量和变异程度的预测精度较高,对局部污染信息的预测精度较低.在初步调查前,收集场地污染源排放、土地利用方式、土壤理化性质、水文地质条件等影响污染物空间分布的相关信息,辅助调查样点设计,可以提高对污染区识别的精度(Falketal.,2011).污染概率阈值选择对加密点的空间分布有较大影响,如果选择的污染概率阈值过低,就会导致被高估的区域不能被识别;概率阈值过高,则会导致不确定性区域增大,需加密的样本过多,从而降低加密效率.本研究为了获取较大的不确定性区域,选择了较高的污染概率阈值和较低的清洁概率阈值,用于检验样点优化方案的效率.在具体应用中,应结合研究区的特点和调查目标,选择适宜的污染概率阈值,进一步提高样点优化方案的效率.加密详查样点优化过程中,基于污染概率和局部变异系数筛选出不确定性较大的区域,该研究并没有在这些区域增加样点,而是根据已有的样点数据,基于距离邻近原则,用邻近样点替代最佳位置的样点.增加的样点在空间位置上并不是最优化的,这可能会降低样点优化的效率.实际应用中在最佳的空间位置补充样点,应该会取得更好的调查效果.

本研究提出的加密布点方法的核心是在污染预测结果不确定性的区域,根据污染物空间分布规律补充调查样点.如图1所示,在污染物空间分布、污染概率预测、预测结果不确定性评价等阶段都应用了地统计学方法.根据地统计学方法的基本假设,应用该方法时要求污染物空间分布具有显著的空间自相关性.大量的研究结果表明,重金属、多环芳烃等污染物在土壤中的空间分布都表现出明显的空间相关性(胡克林,2004;郑一等,2003).因此,地统计学方法是适用的.对某些污染物,如化工场地的氯代烃污染等,这类污染物主要是通过泄漏释放到土壤中,然后通过土壤孔隙进一步向下迁移.在水平空间上,存在泄漏的区域就会检出污染物,没有泄漏的区域就不存在污染(韩春梅等,2009),因此,这类污染物在空间上自相关性较差,本研究提出的加密布点方法就不适用.土壤中污染物空间分布受污染源分布及释放特征、区域环境条件、污染物性质及环境行为特点等多种因素的综合影响,在不同尺度上会表现出不同的空间分布规律.针对具体区域开展污染调查时,需综合考虑污染物空间分布的影响因素,同时可借鉴前期研究和其它类似研究的成果,初步分析土壤中污染物的空间分布特征,在此基础上,进行初步调查布点.基于初步调查结果,应用地统计学方法研究污染物空间分布规律,如果污染物具有较好的空间自相关性,就可以采用本研究的方法进行加密布点优化,否则,本研究的方法就不适用.加密布点是在初步调查结果的基础上,通过辨识污染物的空间分布规律,结合污染调查的要求,开展详查布点优化.因此,初步调查的可靠性会直接影响加密布点的效果.地统计学应用半方差分析研究污染物的空间自相关性.相关研究表明,样点数量和空间分布会直接影响半方差分析结果的准确性(Goovaerts,1999).从样点数量来看,由于污染物类型、研究区域条件的差异,不同研究的结论不太一致,通常认为样点数小于60时,难以获得较准确的半方差(秦耀东,1998).在具体应用时,可根据半方差函数的拟合效果,评估样点数是否足够.从样点空间分布来看,为评估污染物在不同距离和不同方向上的空间分异规律,初步调查样点应尽可能在研究区域内均匀分布,在不同距离和方向上都有足够的样点数用于分析污染物的空间分布规律,可帮助提高加密布点优化的效率.

4结论(Conclusions)

1)土壤污染调查布点方法对土壤污染物含量的估计精度较高,案例场地土壤中Cd平均值的预测误差为5.40%,变异系数的预测误差为6.71%.

2)土壤污染调查布点方法显著提高了污染区面积和污染区空间位置的估计精度,案例场地土壤Cd污染区面积的预测误差为4.10%,污染区空间位置的精度为86.10%.

定量调查方法篇2

关键词 社会调查报告 证据 证据能力 证据效力

中图分类号:D925 文献标识码:A

一、国内外社会调查制度的发展现状

社会调查,也称品格调查,是指为了在刑事程序上对每一个犯罪人都能选择恰当的处遇方法,使法院能在判决前的审理中,对被告人的素质和环境做出的科学分析。 社会调查制度是随着刑法学说从行为主义向行为人主义转变而兴起的。行为人主义认为,行为不只是意识的客观化、现实化,而且是人格或品格的外化,即行为总是正确地反映着行为人的人格或品格,所以要将行为作为反映人格的事实来把握。刑事责任的基础是犯罪人的危险性格即反复实施犯罪行为的危险性。犯罪人的危险性格是科刑的基础。 在此理论思潮的指导下,人格因素被引入到各国的形式立法和司法中。在美国、英国、法国、德国、日本等法制较为发达的国家,社会调查制度已趋于完善。

在上述国家,社会调查内容主要包括犯罪人的个性、身心状况、境遇、经历、受教育程度、经济状况等内容,其普遍适用各个年龄阶段的犯罪人案件,且贯穿于刑事诉讼的全过程。其社会调查一般由专门机构承担,如美国是专门的保释服务机构或监督机构承担,英国是保释情报组织承担,法国是由预审法官承担,或者由预审法官委派司法警察或有资格的人承担,德国是社会工作者承担。审判机关要求“尽可能地获得与被告人有关的生活或者性格特征材料”,以便精确地对被告人科以刑罚。监狱也根据犯罪人的社会调查状况对犯罪人实施不同的矫正或改造方法。由此可见,在国外,社会调查作为量刑、保释、分类矫正的基础,已经成为各国刑事程序不可或缺的因素。但在社会调查主体方面,各国做法不一,既有预审法官、司法警察承担,也有社会专门组织、社会工作者承担。

我国明确提出社会调查的法律虽然是2010年9月印发的《关于规范量刑程序若干问题的意见(试行)》,但是提出实施社会调查制度却是在1995年公安部所印发的《公安机关办理未成年人违法犯罪案件的规定》,并且在相关规定中都明确指出,要充分考虑未成年人的平时表现、家庭情况、犯罪原因、悔罪态度、成长经历、心理特点等因素。在司法实践中,对未成年人进行社会调查的主体则主要有:(1)基层司法所的工作人员,如北京市门头沟法院;(2)固定的社会团体组织(青少年保护委员会、工会、妇联等),如青岛法院、合肥法院;(3)相对固定的社会调查员,如河南省兰考法院。

由此可见,我国社会调查制度开始较晚、适用主体狭窄(仅适用于未成年人)、调查主体不固定且缺乏专业素养。正是由于这些原因,我国社会调查证据性问题突出,亟待解决。

二、社会调查报告的证据性之争

对于2010年9月“两高三部”印发的《关于规范量刑程序若干问题的意见(试行)》中所涉及的社会调查报告的证据性问题,有的学者认为“未成年人社会调查报告不能作为证据使用, 只能是司法机关处理未成年人刑事案件时的一种重要参考资料” ;有的学者认为“社会调查报告从理论上应当视为证据”; 有的学者认为“社会调查报告包括三部分:⑴被告人基本情况;⑵犯罪内容;⑶提出量刑建议及其理由。……社会调查报告中的内容如被告人的基本情况看、一贯表现及犯罪情况,一经查实,可以成为法院量刑的依据,因此,属于证据。至于调查报告中的量刑建议部分,由于其属于调查部门对被告人量刑的意见或建议,并未证明案件的有关事实,因此不属于证据”。

笔者赞同第三种学说,认为社会调查报告前两部分应当属于证据,而社会调查报告的第三部分不应当属于证据。从语言学角度界定证据为:“法律用语,据以认定案情的材料。” 从法律学角度界定证据为:“证据就是证明案件事实或者与法律事务有关之事实存在与否的根据。” 因此,只要与案件的待证事实有关的材料均可称之为证据,该材料的真假情况、表现形式如何均不影响该材料能够成为证据。而案件的待证事实主要是指“与案件事实相关的、能够证明是否有罪, 以及相关的量刑情节事实。” 就社会调查报告来讲,其中被告人基本情况与犯罪内容中所反映的被告人的品性特征、一贯表现行为、悔罪态度、犯罪动机、与被害人的关系、犯罪的社会影响等内容对于更为清楚的判定被告人的人身危险性,从而对其更为准确的量刑有着重要作用,这两个部分属于证明相关量刑情节事实的证据。因此社会调查报告的前两部分内容无论是否查证属实,都属于证据,而其被查证属实之后,则成为了定案的根据。换句话说,定案的根据都是查证属实的证据,而只有查证属实的证据才是定案的根据。而社会调查报告中的量刑建议及其理由部分,因为与待证事实无关,因此不属于证据。

三、社会调查报告的证据能力之探

社会调查报告的前两部分,即被告人基本情况和犯罪内容属于证据。但并非所有的证据都具备证据能力,因为作为证据只需要满足与待证事实有关即可,但一个证据如果要具备证据能力,除了“要具备关联性的自然标准,还要具备合法性的社会标准。” 证据的合法性包括证据的主体合法、证据的形式合法、证据的收集程序合法及证据的收集方法合法。其中证据的主体合法包括收集证据的主体合法和提供证据的主体合法。

定量调查方法篇3

[关键词]农村宅基地 地籍测量 调查方法

[中图分类号] P271 [文献码] B [文章编号] 1000-405X(2015)-2-183-1

1农村宅基地的相关概念

自建国以来,我国的土地制度与宅基地都经历了从私有制到公有制的这一演变过程,但是由于我国在建国以来对土地制度及宅基地法规政策都做出了多次调整,所以笔者有必要梳理宅基地的相关概念:

1.1宅基地

农村宅基地,一般是指农村居民因生活居住而建造的住房、庭院、辅助用房及其他建筑物所使用的土地。宅基地的概念有狭义和广义之分,狭义的宅基地仅指农村集体经济组织为满足农村居民的居住需要和生产需要而分配其居住使用的住宅、附属用地。而广义的宅基地不仅包含上述内容,还包括了国家所有土地与集体所有土地中的农村住宅用地。目前我国国内学者在研究宅基地的相关事项时多使用狭义的宅基地概念。

1.2宅基地的使用权

根据我国《物权法》的规定,宅基地使用权人依法对其集体所有的土地享有占有和使用的权利,有权利用该土地建造住宅及其附属设施。这样一来,依据法律规定,农村宅基地的使用权即指农村居民享有在农村集体所有的宅基地上建造住宅、附属设施以及直接支配与排他的权利。

1.3地籍测量

地籍测量是指为了获得地籍信息而借助科学仪器,在权属调查这一基础上,所采取的专业测绘工作,目的是为了服务地籍管理工作、集合国家土地信息及保护土地产权等,地籍测量主要包括修测地籍图、重测和修编地籍簿册、动态监测权属地的土地信息、测算面积、测绘地籍图、测量界限及地籍控制测量等,以确保地籍资料的正确性和科学性。

在进行地籍测量时,需要遵循从整体到局部、从高级到低级的原则。并且在地籍测量展开之前,首先需要进行地籍调查,地籍调查即指对土地及其附着物各方面(主要包括社会、经济和法律等方面)的信息进行调查,在对土地及其附着物的利用状况及权属界址进行实地确认之后,可以就确认得来的资料进行整理,并填写相应的地籍调查表,以便为测算土地面积、精确定位土地及其附着物等地籍测量工作提供相关的基础资料。

根据调查时间及任务的不同,地籍调查可分为初始地籍调查和变更地籍调查,在地籍调查时,调查的内容应覆盖调查区域的每一块土地,其中土地权属调查是核心。

2对农村宅基地的调查依据及调查要求

2.1调查依据

我国农村宅基地调查依据主要包括《集体土地所有权调查技术规定》、《第二次全国土地调查技术规程》、《城镇地籍调查规程》及各地印发的登记发证通知等。

2.2调查要求

我国农村宅基地的调查要求主要包括外业调查和数据建库两方面:

(1)外业调查。对于所有已经发证的宅基地需要进行实地调查,以便核实宅基地证载信息和使用情况,而对于未发证的宅基地,则需要调查其实际门牌地址及其权利人的姓名,并在调查底图上予以标记。在外业调查时,需要填写调查表,调查表所应包含的内容主要由:土地证号、实际门牌地址、权利人姓名及身份证号、证载地面积及证载土地坐落、旧宗地号、建设状态机审判状态等。这里需要注意的是,填写调查表的时候,调查编号需填写标注在宅基地范围线内,以做到二者一致。

(2)数据建库。数据建库需要依据国土城建局信息中心所提供的格式,运用相应的计算机软件(例如Arcgis软件)将前期调查得来的底图,并且将其宅基地的范围线输入到数据库当中,以便于完善和修整其相关属性。同时,在输入国土城建局信息中心所提供的调查底图时,还应对无范围线的宅基地部分加以注意,并根据需要补测地形图,以保证信息的完整性。最后,根据调成果予以分类统计,以提高工作效率。

3农村宅基地调查现状及对策分析

在农村宅基地的实际调查中,总会出现一些不尽人意的现象,例如“一户多宅”、“住宅超面积”、“住宅未发证”等。对于这些现象,要分析原因,以采取合理的处理对策。

3.1分析界址点精度

由于我国尚未出台一部专门的规范村庄地籍调查技术及作业的规定,鉴于《城镇地籍调查规程》对适用范围做出了明确的规定,即适用于全国城镇和独立工矿区,那么这样一来,原则上也适用于农村地区。

依据《城镇地籍调查规程》中对于界址点的测量,需要使用测量仪器,而界址点往往定于围墙拐角或房角等较为固定建筑的拐点,所以界址点也就非常容易确定,因此其测量精度的要求也较高。这里需要注意的是,该规程也适用于地物较为复杂(例如篱笆、活树及沟渠)、不明显界址点等。

3.2设置合理的调查方法

由于调查底图的制作方法存在差异,因此将调查方法具体分为3种:方法一:全数字航空摄影测量+界址点内业解析+实地勘丈+权属调查+外业调绘制作地形图+立测采集线划图;方法二:全数字航空摄影测量+界址点内业解析+实地勘丈+权属调查+ 内业矢量调查底图+平面正射影像图;方法二:全数字航空摄影测量+界址点内业解析+实地勘丈+权属调查+立测采集线划图。

对于不同的情况,需要采取不同的调查方法,以便于更好的完成宅基地的调查工作。

3.3地籍勘丈

为保证宅基地面积和房屋面积的测量结果的精确度,笔者建议采用内外延长法、直角坐标法及距离交会法等方法,来勘丈权属地的每一宗地的实际面积和具置,确保达到1:1000的勘丈精度。对于需要采取补测措施的地物,依据勘丈得到的数据,采取内外延长法、直角坐标法及距离交会法等方法来解算位置和坐标和位置。同时,依据指界人所指定的具置,使用测距仪和钢尺等测量工具,现场对界址距离进行丈量,并且在调查底图进行标注,将丈量得来的数据填写于地籍调查表中。最后,分析调查结果。

4结束语

由于农村宅基地的调查往往涉及到全国广大农村地区,参与单位多、范围大,任务重,各地经济发展水平和土地情况存在差异,所以农村宅基地的调查是一项较为庞大的系统工程,在此笔者仅以理论及实践互相结合的方法来探讨这一调查工程,以期能为海南省农村宅基地调查工作提供一定的借鉴意见。

参考文献

[1]尹放鸣,尹东风,龚毅,欧志强.《常德农村宅基地管理现状调查及对策探讨》[J].国土资源导刊:2012(22).

定量调查方法篇4

城镇住户调查,是以住户为调查对象的一种社会经济调查活动。通过科学的抽样调查方法,抽取一定比例的城镇家庭,通过对抽中的城镇住户家庭的经常性调查,反映城镇居民家庭相关指标的变化情况。从1956年开始的职工家计调查到现在,城镇住户调查经历了由建立到取消、由恢复到完善的不同的发展阶段,见证了城镇居民生活由计划经济体制到市场经济体制的漫长的历史发展过程。

改革是发展的原动力。发展是我们党执政兴国的第一要务,也是我们统计振兴的第一要务。几十年又几十年,城镇住户调查从改革创新中一路走来,也必将沿改革创新之路坚定走向未来。

一、城镇住户调查方法制度改革的必要性

之一:经常性调查实施难度大

经常性调查是连续性的调查,它是随着被研究对象在时间上的发展变化而连续不断地进行登记。经常性调查的目的在于获得事物全部发展变化过程和结果的统计资料。就某项调查而言,经常性调查自上而下需要大量的人、财、物力支撑。城镇住户调查亦是如此。特别是此项工作的主要承担者――县级统计机构,人力不足、经费短缺,调查实施存有一定难度。

之二:调查户配合程度差

随着市场经济的深入发展,利益主体的分化也在加进一步加快。在这样一个利益主体趋向于多元化的时代,人们对利益的认知和理解已经发生了深刻的变化。单纯的宣传发动、思想教育已经难以满足统计调查工作的需要。一是现行的日记帐的调查方式耗时费神,且调查补贴与调查户付出的劳动又不能成正比,难以调动调查户的记账积极性,不同程度地影响记账质量。二是随着国民素质的不断提高,居民的自我保护意识不断增强,怕隐私外露,对住户调查存在戒备心理,不予配合的现象屡见不鲜,不同程度地影响选户质量。

之三:数据质量监控难度大

随着扩户工作的深入、样本数量的增加,住户调查的工作量也随之增加,需求无限性和能力有限性的矛盾日渐突出。一是调查户多调查员少、工作量大,入户检查指导频率就会大大降低;二是辅助调查员报酬低、选聘难,责任心不强,组织管理、沟通交流难到位;三是记账户图省事、嫌麻烦,漏记、混记、攒记等现象较为普遍。由此,势必影响到住户调查数据质量的进一步提高。

二、城镇住户调查方法制度改革的新思路

(一)改革调查方法,实现经常性调查向定期调查的合理化转变

调查方法改革构思:改变传统的经常性调查模式,实行定期调查;取消调查户日记帐的数据采集方式,实行入户问卷调查。

一是本着满足工作需要的原则,按城镇人口比例合理确定样本数量。按地理位置和城镇人口收入水平排队,随机等距抽选所需数量的街道和居委会。在确定的居委会中按样本数量标准抽选调查户。

二是科学设置调查指标,健全和完善调查指标体系,合理增加前瞻性、趋向性指标。

三是结合统计工作实际,确定调查时点,降低调查频率,增强调查频率的可行性。

四是坚持大轮换与小调整相结合的原则,适当延长样本轮换周期,以确保调查数据资料的衔接可比。

不言而喻,实行定期调查,县级统计机构不仅可以化解人力、财力不足的矛盾,而且有利于减轻工作压力、提高工作效率。同样,调查数据质量也有了可靠保证。一是在组织实施上,统计机构可以按照调查时间要求,集中骨干力量深入调查户询问调查,确保源头数据质量;二是在整理汇总上,录入查询、分析评估、汇总上报等多个环节可安排专业人员负责,确保调查工作质量。

(二)强化监控机制,健全和完善住户调查数据质量评估监控体系

健全和完善的数据质量质量评估监控体系,是确保住户调查数据质量的可靠保证。由此,统计机构有必要在实行定期调查的同时,切实建立起与之相配套的数据质量评估监控体系。

1、严把三个关口

一是严把样本抽选关。严格按照国家统一标准和要求,按照随机等距抽样原则,抽选所需样本,并实行多样本分析对比验证,确保调查样本确实具有代表性。

二是严把非正常换户关。严格审批和控制非正常换户比例,对于多种因素不能满足调查需要的住户,要根据家庭规模、户主工作单位所有制、职业、人均收入等指标与原户的一致性确定新补户,避免非正常换户的误差对样本代表性造成一定影响。

三是严把调查质量关。调查前,要对调查人员进行严格的业务培训,包括调查内容、询问技巧、观察分析等,确保调查数据的全面、准确、可靠。

2、搞好三个结合

一是与误差的逻辑检查和计算检查相结合,定期检验抽样调查误差,系统评估调查结果的准确性。

二是与全面统计资料的对比分析相结合。采用对比的方法,分析抽样调数据与全面统计资料的差异程度,系统评估调查结果的代表性。

定量调查方法篇5

[关键词]分层随机抽样;样本容量;分配

[中图分类号]F224.9

[文献标识码]A

[文章编号]1008―2670(2007)04―0049―05

在市场调研实践中,分层随机抽样(简称分层抽样)以其效率相对高、费用相对少、精度高、方法灵活的优点被广泛采用,成为近代统计调查方法中最重要、最常用的方法之一。在分层抽样中,总体经过分层,各层的单元数、变异程度及调查条件都有可能不同。在样本容量n一定的条件下,就需要考虑如何将其分配至各层中去的问题。样本量在各层中的分配方法不同会对估计量的精度产生一定的影响,并进而影响分析者的预测和决策。因此,样本容量的分配是关系到调研精确度和市场研究公司效益的一项重要工作,从理论上探讨分层抽样中样本容量的分配方法就变得尤为重要。

一、问题的提出

(一)分层抽样中层样本量配置的重要性

分层抽样曾被统计学家马哈拉诺比斯称为抽样调查中“很有名气”和“运用极广泛”的一种抽样技术,它按照层内差异尽可能小,层间差异尽可能大的原则,将总体区分为不同的层(也称为子总体),再分别独立地从各层内抽取一定的样本单元进行调查并推断。它除了比纯随机抽样有更高的抽样精度(按照谢邦昌教授的研究,分层抽样的误差一般只有纯随机抽样的1/10)外,还可以把各层看作独立的总体,推断时不仅可以估计总体,还可以推断各层;同时还可以对不同的层采用不同的样本抽选和估计方法,从而大大提高了方法的灵活性。

分层抽样中,解决层样本容量的配置问题,既是实施分层抽样调查的前提,也是确保抽样精度和效率的关键因素。样本容量分配可以看作是连续给任一层减少同时给另一层增加一个样本单元会使层估计量的方差和总体相应样本的方差减少的一种手段。当给任何一层增加一个样本单元使总体有关估计量的方差减少程度相同时,样本容量分配是最优的。这相当于给任何一层每增加一个样本单元所取得的边际效用(即减少的抽样误差)相等。在样本容量一定的前提下,在层样本量分配的各种方法中,最优分配就是使总体特定值的样本估计量的方差最小的分配。分配的情况直接影响到抽样调查的精度。因此分层抽样中考虑各层样本量的分配方法非常重要。

(二)国内外研究综述

关于这一问题的研究由来已久。早在20世纪50年代,W・G・科克伦就在他的著作《抽样技术》中介绍了分层随机抽样中样本容量的最优分配法,并列举了“当调查项目超过一个时,样本容量在各层之间的分配问题”;1985年,L・Kish出版的《抽样调查》一书中也介绍了分层抽样中的“元素的按比例抽样”和“不按比例抽样或最优分配”,但是这些内容都不够系统;上世纪90年代末至本世纪初,中国的统计专家们也陆续出版了一些关于抽样技术的教材或专著,比如冯士雍教授的《抽样调查理论与方法》、金勇进教授的《抽样技术》、杜子芳教授的《抽样技术及其应用》等都非常经典,其中都有对国外分层抽样中层样本量分配方法的系统阐述。各期刊中也有相关的文献,但是不多,对方法的适用性和对比分析不够充分。

本文立足于分层随机抽样的重要性以及样本容量分配的重要意义,从分析影响样本容量的因素人手,讨论实践中分层抽样样本量分配的方法体系并进行比较评价,得出各种方法的适用性,期望对调查实践具有一定的借鉴价值。

二、样本容量分配的影响因素分析

抽样实践中,一般按照最优设计理论来设计抽样方案,分层抽样中样本容量分配方案的设计也不例外。所谓最优设计,即在费用一定的条件下,选择使精度达到最高(即方差最小)的设计;或是在满足一定精度要求下,选择尽可能使费用节省的方案。结合分层随机抽样中总体均值估计量的方差的表达式(式(1)),可以分析出最优设计原则下影响样本容量分配的几个主要因素。

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

其中,yst为总体均值的分层随机抽样估计量,Ⅳ为总体单元总数,nh为第h层的样本容量。

1、层的大小,一般用各层单元数在总体单元数中的比重表示,即层权Wh。层权体现了总体的内部构成,其大小直观上体现了各层在总体中的地位高低。层权越大说明该层在总体中占据的地位越重要,则在样本容量一定的条件下,提高样本对总体的代表性,就应在该层多抽样本单元。反之亦然。

2、各层的变异程度。各层的变异程度通常用层标准差Sh来表示,Sh越大,说明变异程度越大,即离散程度越大,保证一定的代表性所需的样本量就越多。所以,在样本容量一定的前提下,在变异程度大的层尽可能地多抽取样本单元能有效地提高样本的代表性,从而提高估计的精度。

3、费用。在调查实践中,抽取样本单元并调查需要花费一定的费用。在费用预算一定的前提下,若某层取样并调查的单位耗费较大,则应尽量减少该层分配的样本量,从而在费用一定时尽可能多地抽取样本单元;或者说,在样本量一定的条件下,在单位费用较高的层少分配样本量会有效地控制调研费用。

4、其它因素。除以上因素外,还有比如各层样本问卷回收率的不同等影响因素,若某层样本问卷回收较困难,就应增加该层样本抽取的数量,从而保证样本的代表性。

具体分配各层样本容量时,可以仅考虑以上的一个因素,也可以同时考虑两个或两个以上的因素。一般而言,考虑的因素越多,样本对总体的代表性越高,抽样推断的精度也就越高。但是,需要的信息就要越充分,分配样本量的工作也越复杂。所以,实践中需要考虑哪些因素来分配各层的样本量,需视具体的条件、环境以及要达到的要求而定。这就需要调查实践者清楚地认识到各种分配方法的优缺点和适用性,以便更好地选择。

以上对于影响因素的讨论主要立足于一个调查变量的情形。事实上,调查变量的多少会明显影响样本容量在各层的分配。下面分别从单变量抽样调查和多变量抽样调查两个角度来说明分层抽样中样本容量分配的方法。

三、单变量调查样本容量的分配

(一)典型分配方法及其特点

目前,国际上普遍接受和认同的样本量分配方法主要有三种:按比例分配、最优分配和内曼最优分配。上例中介绍的几种方法现实中也不乏使用。各

方法都是以层数k和样本容量n已知为前提的。

1、比例分配

这是Bowley于1926年提出的。在分层抽样中,若nh都与层的大小Nh成比例,即

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

或记为fh=f(h=1,2,…,L),则称这种样本量的分配方式为比例分配(prop:proportional allocation)。可以看出,按这种方式分配各层的样本量,总体中的任一个单元,不管它在哪一个层,都以相同的概率人样,所以为等概率抽样(sampling with equal probabilities),这种样本也称为自加权样本。从以下总体均值的估计式同样可以看出这一点:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

因此按比例分配的分层随机样本,估计量的形式特别简单(而且无偏),可以大大简化调查以后的数据处理,特别是对于大规模的多变量调查,自加权样本的优点尤其明显。但是在大规模的抽样调查中,特别是在涉及多阶段抽样的调查中,很难保证最终获得的样本是严格自加权的。

2、最优分配

在分层随机抽样中,对于给定的费用,使估计量的方差达到最小,或者对于给定的估计量方差,使得总费用达到最小的各层样本量的分配称为最优分配(opt:optimum allocation)。由于考虑了费用因素,所以这种方法也被称为经济分配法。

由定义可以看出,在最优分配中,不仅考虑调查的精度要求,而且把费用也纳入了考虑的范围之内。这在实际当中是相当重要的。选择线性费用函数形式:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

其中,CT为总费用;co为与样本量无关的固定费用;ch为在第h层中抽取一个单元进行调查的平均费用。

同时考虑费用和精度两个因素,剥离与n、nh无关的部分,建立乘积形式的效用函数,利用Cauchy―Schwarz不等式,可以得到分层抽样下的最优分配为:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

最优分配的结果表明:nh与Nh,Sh成正比,而与根号下Ch成反比,从而得出下面的行动准则:倘若(1)第h层所含有的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要多抽取一些样本单元。

3、内曼最优分配

简称内曼分配(ney:neyman optimum allocation),又称适度法,它是最优分配的特例。在最优分配中,如果假定各层的单位抽样费用相等,即Ch=c,那么费用函数就变为CT=Co+Cn。此时,分配nh/n的表达式大为简化:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

这种形式的分配被称为内曼分配。事实上,这―结论早在1923年就由俄国学者楚波罗(Tschu,prow)给出了证明,但一直没有人注意到,直到1934年内曼(Neyman)重新给出了证明,这一结论才逐渐引起人们的重视,因此习惯上称该最优分配为内曼分配。

在分层随机抽样中,当样本量n固定时,内曼分配的样本容量可使v(yst)达到最小值:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

综上所述:比例分配的优点是可以得到自加权样本,抽样实施简单。内曼分配考虑到层权和各层变异程度的因素,会使抽样精度大大提高。然而现实中往往会存在费用问题,最优分配同时考虑到三者的影响。但现实中也并非考虑因素越多越好,理论上的最优分配实践中未必真能做到。比如,按照最优分配的思想和做法,最终的分配结果很可能导致某些层分配的样本容量甚至会超过其总体单元数。这在某些层的标准差Sh特别大,而Nh相对于总样本量n又小很多,同时这些层的平均单位抽样费用Ch又比较低的情况下很容易出现。这时,应该对这些层实施100%的抽样,即进行普查,然后再将剩下的样本量按最优分配方式分配至其余各层。此时的最小方差公式需要作必要地调整:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

其中,∑`使仅对最后实际分配的样本量元严格小于Nh的各层求和,n`也只是这些层中抽取的单元总数。这里可以直观的理解一下它的含义:因为对于那些实施普查的层来说,已经不存在所谓的抽样误差了,自然需要从原来的公式中将它们舍弃。

因此,选择样本容量分配方法,应立足于现实情况,深刻剖析调研目的,具体问题具体分析。

(二)分配方法的选取规则

不难看出,内曼分配是一般最优分配的特例,按比例分配又是内曼分配的特例,所以,一般最优分配是样本容量分配的通用规则。由于不同的分配规则引起的层样本容量不同,产生的抽样效率也会有差别,所以如果分配方式不当,就会引起抽样效率的损失。选取分配方法,应该考虑具体的调查目的。调查目的不同,样本容量的选取规则也有差别。

1、调查目的是取得总体特定值的情况

在这种情况下,分层实际上是为了改进这些特定值估计量的抽样效率。现实中采用分层抽样多数是为了达到这个目的。

在实际工作中,比例分配法最常用。由于它所抽取的样本容量考虑了各层的合理权重,使得综合计算的样本指标能切合实际情况,并且操作实施方便,在不要求费用等因素时颇为适用。若在给定的费用下使估计量的方差达到最小值,或在给定的估计量方差条件下使费用最小,则使用一般最优分配。内曼分配法在考虑各层合理权重的情况下,又使抽样方差减少到可能范围,这种方法在使用时较比例分配法又前进了一步,且它是一般最优分配的特殊情况即每个抽样单元费用相等。实践中也有些更具体的规则可供参考。

A.当各层样本单元的调查成本显著不同时,采用一般最优分配;

B.调查变量的层总体方差S2h的估计值不同时,采用内曼分配;

C.当调查变量的层总体方差S2h估计相差不大时,采用按比例分配。

2、调查目的是进行各层之间的比较

一般来说,这种比较最好是在有相同相对标准误的层样本估计量之间进行,应该用相同的样本容量,除非总体方差或单位调查费用在层间变化很大。在后一种情况下,应使分配的各层样本容量与层总体标准差成正比,与层平均费用的平方根成反比,这样会使总体层与层之间差的平均方差达到最小。

3、调查目的是既要估计整个总体也要估计层特定值的情况

在这种调查结果对总体和各层(即子总体)都需要的情况下,样本容量分配应视主次而定。如果调查的主要目的是估计整个总体,那最优分配是适当的,但如果求得各层的统计量更重要,那么,不论从提高层估计精度还是从使层与层更容易比较来讲,就必须做一些特定的样本容量分配,以便在这两个目的之间做一些妥协。

四、多变量调查样本容量的分配

最优分配对单一的调查项目效果最好。但是,在社会经济现象的调查中,多数调查都要涉及几个、千几个甚至几十个调查项目。当调查项目多于一个时,由于每个指标都有其固有的层标准差,对于某个调查指标来说是最优的分配,对另一个调查指标来说一般就未必最优,甚至可能相互矛盾,因此必须采用某种折衷方案。1942年,Jesson・R・J提出了一种样本容量分配的折衷方法;随后,Chattr Jee(1967)和Yates等人又陆续提出了一些方法,力图兼顾到各个较重要的指标。这些方法大概可以分为两类。

(一)在各单个调查变量最优分配的数量差别不是很大的情况下的处理方法

1、平均法

这是Jessen的折衷法。具体做法是:在多个要调查的项目中,凭经验知识或根据相关关系将多个调查变量浓缩在几个最重要的辅助变量上,然后根据有关的历史资料或高度相关的辅助变量的资料计算出各自的最优分配数,如果这些最优分配数差别不是很大,则取各最优分配数的平均数作为层样本容量。

2、查特吉法

即选择使由于偏离最优分配所引起的所有调查变量的方差中按比例的增量的均值达到最小,即

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

其中,n'jh是在第j个项目上,样本容量n在第h层上的内曼最优分配。

这两种方法的出发点不同,前者着重于主要的调查变量,后者则对各调查变量一视同仁,究竟选用哪种方法好,视各调查变量的重要性来定。实践表明,两种方 法的计算结果十分接近。

(二)在各单个调查变量最优分配数相差很大的情况下的处理方法

当各项指标之间具有一定的相关性,而且计算出的最优分配结果的差异性不大的时候,前面介绍的方法能得到令人满意的结果。然而在有些调查中,单个变量的最优分配彼此差别很大,没有明显的折衷数字,就需要一些准则来确定该如何进行样本量的分配。

1、耶茨方法Ⅰ

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

其中,a为第j个调查变量的预期影响权数,它的取值使调查的总预期影响

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

最小,其中

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

可以理解为使单位抽样方差增加一个单位所需要付出的边际费用,它可以根据经验知识或历史资料估计。

2、耶茨方法Ⅱ

对每个调查变量都规定希望得到的方差Vj,再对每个调查变量求出最优分配数和所需费用,选费用最高的变量,检查其最优分配数对其余变量的方差允许限是否满足。若满足,就以该变量的最优分配数作为样本容量分配数。

3、布思一塞德兰斯克法:在耶茨方法Ⅰ中规定

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”其Vj中为预期的单个变量j的方差界限,aj与Vj成反比,再用耶茨方法Ⅰ中的样本容量分配计算nh。这种方法中权数aj的选取方法与组合估计中的权数选取方法相同。

这三种方法中,布思――塞德兰斯克指出,3法常是耶茨方法Ⅱ的很好近似求解法。我们知道,耶茨方法Ⅱ是耶茨方法Ⅰ的特例。因此,在没有对各调查变量规定精度要求的情况下,通常应该用耶茨工法,否则先用耶茨Ⅱ法,若耶茨Ⅱ法求解困难再用布思――塞德兰斯克法,若求出的解不能满足所有约束条件,可以通过增大样本容量重复使用布思――塞德兰斯克法来达到目的。

事实上,以上介绍的多目标调查涉及的分配方法使用起来都会有些局限性。最简单的处理方式就是按比例分配,这样做的效果多数情况下是令人满意的。因为,比例分配不涉及到具体的指标,而且此时样本满足自加权的形式,估计量及其他数据的处理都比较简单。另外,多元统计分析中思路也非常有价值,比如因子分析或主成分分析等,将多个调查指标的历史数据汇总成一个综合指标,再按照它的离散程度等分配各层样本容量。但是这种方法需要多个调查变量的历史数据,在连续抽样调查中比较有价值。对此,目前尚无严格的论证。

定量调查方法篇6

【关键词】公路建设;投资统计;基本方法

一、引言

随着公路建设的重要性的不断增加,国家对其投资的力度也越来越大,经过众人的努力,在公路建设投资方面也取得了不错的成绩。因此,为了使公路建设项目得到完善,我们必须合理利用投资资金,对资金进行有效统计,有效运用投资统计方法,加强投资的效益,从而提高公路建设整体水平。

二、公路建设投资统计分析

公路建设投资一般是指用定性或定量的方法,对建设项目的环境、施工技术、经济条件等方面进行计算分析,以此来确认投资是否合理。其中,建设项目的经济条件是项目的重要组成部分,没有经济条件的支持,一切都只是纸上谈兵,而经济条件的主要部分就是投资。对公路建设投资进行合理的统计,是在项目决策和设计之前,采用现代分析法对将要施工的项目进行计算期内的投入、产出等各种经济因素进行调查研究,最后进行综合统计分析,得出最佳投资方案,来决策项目的施工能力。

在公路建设的投资统计中,合理统计出施工费用是其主要内容。所需的施工费用主要包括建筑安装工程费,设备及工、器具及家具购置费用,以及工程建设其他费用。其中建筑安装工程费主要包括直接费、间接费、利润和税金。直接费用是由直接工程费和其他工程费组成,直接工程费是在施工过程中所消耗的实物的费用,如采购原材料和机械设备的费用,聘请人员施工的费用等。其他工程费则是是施工过程中出现各种意外情况所造成资金消耗的非实体费用,如遇到异常天气影响、行车行人的干扰等的增加费用。而设备及工、器具及家具购置费用主要包括设备、工具、器具采购所需费用,以及施工的办公室区域的家具、办公用品等的购置费用。工程建设其他费用则是工程从开始到完工的整个过程内,除去建安费和设备、工器具等费用外,为确保工程质量,额外消耗的的各种费用。

三、公路建设投资统计基本方法

随着公路建设的不断发展,公路建设投资统计的基本方法也在不断完善,其主要方法有以下几种:

1、统计报表

统计报表是将工程程序和时间以表格的形式统计规划出来,从最基本的基础资料着手,从下往上的进行统计,得出的报表制度是具有法律性质的。现阶段,大部分公路建设投资统计都是采用统计报表的方法来搜集整理工程项目相关的数据资料。此种方法主要是以调查方式来进行,是先由政府有关部门将相关法律法规以表格形式进行统计,然后再由项目管理企业或单位以此为依据,层层汇总,逐级提供基本数据资料,由此来进行对工程项目投资的统计。

2、抽样调查

(1)抽样调查的特点

抽样调查是一种非全面的调查,是通过实际情况对整体总量进行预测的一种公路建设投资统计方法。此种方法是对整体进行单位分组,再从每组中进行抽样,作为一组的代表,对选中的代表性单位进行科学合理的调查分析,最终得到标志数据,来推测总体情况。

因为抽样调查具有随机性,因此难免会出现调查误差。在进行抽样调查中,常出现的误差有代表性误差和工作误差。尽管抽样调查会存在缺陷,但不意味着不能投入使用。我们可以通过科学的计算方式,对抽样进行合理的设计,将代表性误差尽量控制在不影响整个统计质量的范围内。当调查量大或调查个体单位较少时,抽样调查显示了其优势性,调查数据更为准确可靠,其可靠度主要表现在以下几点:

①以整体样本作为调查对象的表征,不是以个别单位作为代表,具有反应整体情况的功能。②产生的误差可在调查前对样本数量和各样本之间的差异进行科学的计算,将其控制在允许误差的范围内,可得到更为准确的调查结果。③调查对象是通过随机选择的,被选中的几率是均等的,因此不会出现整体表征的偏向误差。

(2)抽样调查的步骤

1)界定总体;2)制定抽样框;3)分割总体;4)决定样本规模;5)确定调查的信度和效度;6)决定抽样方式;7)实施抽样调查并推测总体。

(3)抽样调查方法

①随机抽样

简单抽样法是之中最简单的抽样方法,分析误差时也会相对比较容易,适用于样本量大,个体差异小的情况。顺序抽样法(也称系统抽样法),是从随机点开始,以“每隔第几”的方式来对样本进行抽取。其优势在于抽取的样本分布均匀,对总体的预测值较为容易计算。分层抽样法是根据样本容量的特点,对其进行分层次的进行抽样调查,在分层时,依据总体中出现的各个部分层次的差异,要尽量使这个差异更大,从而提高样本的代表性,整体的评估精度就会随之提高。整群抽样法是将整体进行自然分群,也可根据工程需要来进行分群,如根据公路施工段的地理、环境等特点来进行分群。再从所分的群体里随机的抽取样本,最后对样本进行调查统计。多阶段抽样法是用两个以上的连续阶段来进行抽样的等概率抽样法。对每个阶段进行分级别的操作,再从各个级别中抽取样本。

②非随机抽样

重点抽样是对整体样本中具有突出特点,且对整体的影响很大的样本进行抽取调查。典型抽样法是选取具有代表性的样本进行调查研究。任意抽样法是对整体进行随意的抽取样本进行调查,但它不同于随机抽样,其样本的被抽到的几率是不等的,因此此种抽样法适用于整体差异不大的情况。配额抽样法是对整体进行分类,在样本容量既定下,根据配额量从整体中抽取单位进行调查。

3、普查统计

普查统计法是较为少见的特殊的统计方法,它具有以下几个特点:

(1)普查统计的方式一般是以一次性或者周期性的进行,其适宜于总体普及较广,单位较多的情况,因此所需要的费用也会较大,同时还需更多的人力和物力。且对调查的总体进行调查的时间间隔需较长。(2)因为普查统计对调查的时间有一定要求,因此需要把控好调查的时间点,即标准时点。标准时点就是对要调查的对象登记时所依据的统一时点。在进行调查时,必须在标准时点对调查对象进行调查,以防止外界变化因素对调查产生影响。(3)规定统一的普查期限。在普查范围内各调查单位或调查点尽可能同时进行登记,并在最短的期限内完成,以便在方法和步调上保持一致,保证资料的准确性和时效性。(4)规定普查的项目和指标。普查时必须按照统一规定的项目和指标进行登记,不准任意改变或增减,以免影响汇总和综合,降低资料质量。同一种普查,每次调查的项目和指标应力求一致,以便于进行历次调查资料的对比分析和观察社会经济现象发展变化情况。

四、结语

通过对公路建设投资统计进行分析,再详细的分析研究公路建设投资的基本方法,得出各个基本方法的特点,选出适用的情况,为公路建设投资统计提供了有力保证,同时也为各工程项目的决策提供了可靠依据。

参考文献

[1]李宗维.公路建设投资项目跟踪审计浅议[J].交通企业管理,2010(07)62-63

定量调查方法篇7

关键词:院校研究;问卷调查;数据;质量;调查总误差理论

中图分类号:G647 文献标识码:A 文章编号:1672-0059(2013)02-0046-08

院校研究(IR)涉及三个数据源:院校信息系统或管理数据(如注册学生数据、教师数据);外部数据源(区域或国家的数据,如美国的高等教育综合数据系统);从各种问卷调查和查询收集的数据。所使用的问卷调查常常是本地开发的。尽管本地制备的调查可能是获取所需信息的最佳选择,但是高校中的信息用户通常更加信任源于管理数据的研究,而不是那么信任源于调查数据的研究。在高等教育研究者和政策制定者中也发现类似情况,他们一贯对更软性、更主观的测量手段(如基于认知的调查数据)缺乏信心。同时,内、外部评估的需求比以往任何时候都对调查数据质量提出了更高的要求。此外,人们对常用的大学生调查的有效性提出了质疑,呼求更加严谨的调查设计和评估方式。在此情况下,需大力提高高等教育研究和院校研究的调查数据质量,以提高对调查数据的接受和使用程度。

可惜的是,以院校研究人员为目的、从整体上考察调查数据质量问题的文献十分有限。现有的改进调查方法的努力中存在两个空缺。首先,虽然从各方面论及调查项目的文献很多,但是缺乏有效的文献汇总,也缺乏以质量控制为目标的思维模型。由于缺乏综合,调查方法论问题尚未从质量的视角加以考察。由于调查质量是个多层面的复杂问题,这种缺乏思维模型和信息综合的情况是可以理解的。当深入研究一个特定领域时,就很难从广度上覆盖该主题的其他领域。然而,如果研究员严肃地对待调查数据质量,这种知识综合对任何形式的调查项目,无论是像全国学生参与度调查(NSSE)这样的多院校调查,还是单个院校内部的调查,都是必要的。

与之相关的第二个空缺是,在院校研究领域缺乏一个有关调查误差的综合思维模型。虽然“认真的”IR人员在努力提高调查数据质量,但他们往往不依赖任何调查方法理论。后文描述的一个调查方法理论——调查总误差——是一个非常有用的解决调查数据质量问题的方法。然而,目前的IR文献很少涉及调查总误差理论及其在IR中的应用。虽然有一些出版物从调查误差的角度,已经触及IR领域的调查问题,但对数据质量的论述仍然有限。因此,从数据质量的角度,透过调查总误差理论来看待IR的调查问题颇具意义。它提供了一个优化调查的理论框架,并为调查方法论提供了一个中心组织架构。本文后面的讨论均是基于这一观点,目的是将调查总误差的方法论融入到IR的数据质量问题里来。

院校研究人员为改善数据质量所付出的努力是不均衡的。这也使得提高调查数据质量的任务更为紧迫。在IR领域举足轻重的著作《人员、过程和管理数据》对IR如何为高校提供信息支持加以阐释。书中的信息支持周期包括五个信息管理阶段和以下三个利益相关方:保管人,供应者(负责数据的完整性);中间人/生产者(将数据转化为信息);管理者/用户(接纳信息并实地应用)。该周期的中心是质量决策(图1)。虽然IR与数据保管人和用户也相关,但其职能主要与信息中间人的角色相一致(第17页)。然而,该书仅讨论了IR的一个数据源,即院校管理数据,而没有论及问卷调查研究项目产生的数据。因此,当涉及调查数据时,IR职能如何融入信息支持周期,尚不清楚。

因此,本文基于调查总误差理论,为院校研究提出一项调查数据质量策略。下面我将简要介绍调查过程的质量视角和调查总误差的主要组成部分。随后,我将所提出的调查数据质量策略总结在一份表格中,并加以解释。本文以讨论该策略对IR的启示结束。应当说明的是,本文关注的是IR调查数据质量问题的整体概览和宽度,重点不在每个问题的深度。对某个特定主题感兴趣的读者,请查阅针对单个问题的文章获取详情。

一、调查过程的质量视角和调查总误差

问卷调查,可以通过两个视角考察。一个视角是过程视角:调查者检查一个调查项目所需的一切步骤和决定,这包括在信息需求基础上确定研究目标、确定抽样方法、开发调查工具、开展调查、进行数据分析以及最终生成调查报告。这个视角把调查过程描述为一个连续但有重叠的过程。

调查过程的第二个视角是质量视角。这种方式并不专注于如何最好地实现调查过程的每一步,而是关注于每一步会发生什么问题,以及如何克服或使其发生概率降到最小。换言之,它旨在检查调查过程中可能发生的误差,以最大限度减少这些误差,从而提高调查数据质量。因此,质量视角与调查误差相关,也正是在此,引入调查总误差的概念。最佳调查设计的目标可以简单地表述为“使受成本和时间所限的调查总误差最小化”。

图2对调查过程的质量视角和过程视角进行了比较。调查过程的质量视角由测量路径和代表路径组成。两个路径都是从抽象到具体:测量路径从构念开始,而代表路径始于目标总体;随着过程视角下调查项目始于信息需求,继而到数据处理,再到报告生成,测量路径和代表路径也向下移动,并会合于获得调查统计数据。

调查总误差是指“目标总体的均值、总和或其他参数与抽样调查(或普查)的参数估计值之间的差别”。调查误差可以有不同的分类。有人将其分为抽样误差和非抽样误差;还有人将其分为测量过程的观测误差(始于构念,终于编辑应答)和代表过程的非观测误差(始于目标总体,终于调查后调整)。不论调查误差如何分类,调查总误差包含以下五类:测量误差、涵盖误差、抽样误差、无回答误差和调查后(即数据处理或调整)误差。这些类型的误差如图2所示,并在后文详述。

每一种调查误差都会产生可变误差(variableerror)和系统误差(systematic error)的风险,这些风险会分别导致误差差异(error variance)和偏误(bias)。误差差异和误差偏误是衡量数据质量的两项标准,差异比偏误更容易测量和控制。表l列出了五种调查误差产生可变误差和系统误差的风险高低。

在一般的调查项目中,抽样误差产生系统误差的风险较低,而其他四种调查误差产生系统风险的可能性较高。这是因为,如果调查采用了合理的抽样方法,抽样误差产生系统误差的风险相当小,而可变误差的风险是不可避免的。相比之下,由于问卷设计欠佳,所导致的测量误差会产生较高的系统误差风险。一个组群可能完全没有被包含在抽样框中,使得涵盖误差产生较高的系统误差风险。

在一个典型的IR调查项目中,目标总体一般为院校学生或教职员工,即有限总体。抽样框通常可以从学生信息系统或人力资源数据库中获取,这个优势减少了涵盖误差产生系统误差的风险。目标总体通常使用电子邮件和在线资源,这为对大学生或教职人员进行网络调查创造了比对校园外人群进行调查更加便利的条件,也使网络调查成为高校常用的调查模式。此外,高校通常拥有较先进的数据输人和处理资源(如软件和研究的专业知识),这会有助于减少数据处理误差。鉴于这些特性,每一种调查误差产生可变误差和系统误差的风险高低,会不同于其他背景下的调查项目。表1显示了IR调查项目中,五种调查误差所产生的可变误差和系统误差的风险指示。

二、调查数据质量策略

本文的调查数据质量策略是在调查的质量保证(quality assurance)和质量控制框架中提出的,并针对上述五种调查误差。

质量保证和质量控制两个概念之间有细微的差别:“质量保证确保过程能够提供良好的产品,而质量控制确保产品确实是优质的”。因此,质量保证与调查过程相关,而质量控制与调查产品有关。调查研究人员同时追求过程质量和产品质量。调查质量通过可靠的过程(过程质量)得到保证,而这些过程导致良好的产品特性(产品质量)。根据这个框架,为了实现质量控制,需要对高质量调查数据(即产品)的特点作出定义;而为了实现质量保证,应确定高质量调查过程的特点。

基于这些考虑因素,本文提出的调查数据质量策略包括三个组成部分:质量标准,这是高质量调查数据的特征或指标;质量控制程序,用来检查调查的各个方面和数据是否具有质量标准中规定的品质特点;质量保证程序,用于检查调查过程是否实施了一定程序,以确保得到的调查数据集具有质量标准中规定的高质量调查数据的特点。

调查数据质量策略总结在表2中,五种调查误差为行,三个方面的质量检查为列。该策略与两种处理调查误差问题的方法(即误差测量和误差减少)相吻合。质量控制程序以测量和评估调查误差为目标,而质量保证程序的目的是减少调查误差。

以下部分中,我将分别阐述五种调查误差的质量标准,以及在IR背景下其相应的质量控制和质量保证程序。表2为这些标准及相应程序的总结。

三、测量误差的质量检查

测量误差是所得回答与被测量物之间的差别。参照图2,测量误差代表构念和测量之间的差距,以及测量和回答之间的差距;这些差距会在工具设计和数据收集的过程中发生。与测量误差相关的高质量调查数据有三个指标:合理的效度;合理的信度;回答偏误降低到最低。

1、质量控制程序

效度作为测量的必要条件,指调查测量在多大程度上真实地反映了预期构念④。效度评估主要被视作相关性检查⑤。构念效度(construct validity)包括内容效度和标准相关效度,是在考虑效度时总揽其它效度的概念。如果测量与其背后的理论概念一致,那么数据就具有构念效度。构念效度有两个衡量指标:会聚效度(由调查回答与其他调查中类似问题的回答之间的正相关性来测量)和区分效度(由调查回答与对测量不同构念问题的回答之间的低相关性来测量)。因子分析是检验构念效度的有用统计方法。

信度“测量在理论上反复试验的过程中回答的变异性”。涉及回答者的回答是否稳定一致,因此也被称为回答差异(response variance)。信度常以两个调查估计值的相关性来计算。回答的信度有三种评估方式:内部一致性(通常用克隆巴赫系数测量)、分半信度和重测信度(通常都用斯皮尔曼一布朗系数计算)。对于定性回答,也可用交互评分者信度来评估。

回答偏误是样本估计值与目标总体真值之间的系统性偏差或差别;换言之,受访者的平均回答始终高于或低于目标总体真实的平均值。引起回答偏误的来源有情绪、社会可取度、语言困难、极端回答和一味肯定等。

有两种方法来评估回答偏误。一种是将调查数据与调查以外的数据或信息进行比较。例如,向该调查项目的利益相关者或负责人核实,考察调查结果是否与他们的经验或知识一致。另一种评估方法是评估某种回答倾向的发生情况,如有些受访者以社会所认可的方式回答,避免使用评定量表中的极端回答类别,或对所有题项给予相同的答案(即强满意现象)。

2、质量保证程序

可以用以下方法减少测量误差。首先,研究员应将调查基于稳固的理论或概念框架,力求设计出高品质的提问措辞和问卷结构。由于IR调查项目常出于院校的某种需要,调查的构念往往主要根据经验,而较少基于文献中的概念框架。然而,尽管IR项目应用性较强,文献查阅也应是调查设计过程的一部分。

第二,应该进行认知访谈,以确保目标总体以问卷所预期的方式理解其中的问题。第三,受访者充分的回答行为与认知过程的优化完成和足够的动机有关;因此,问卷的设计和执行应确保参与者在回答调查问题时确实经历了心智处理的四个组成部分,即理解、检索、判断和回答。未这样做的一种情况是强满意(strong satisficing),发生于回答者跳过检索和判断步骤便作回答。对此,可以询问受访者是如何完成问卷的,让他们自我评估在回答问卷时自己的动机和能力如何。

第四,对于访谈式调查,调查程序应确保足够的访谈行为。访谈行为可用访谈者差异测量,最好用多层次分析法加以分析。

四、涵盖误差的质量检查

参照图2,涵盖误差发生于抽样框和目标总体之间存在差别时。高质量调查数据的特点是使抽样框和目标总体之间的差值最小化。

1、质量控制程序

目标总体中的一部分在抽样框中不存在或无法获取时,偏误就会发生。Groves等人认为,造成这种情况的原因有:目标总体中的某些元素没有或无法出现在抽样框中(即未涵盖),抽样框中的某些单位不在目标总体中(即不合格的单位),框中若干单位对应目标总体中同样的单位(即重复)。研究人员应该检查这些情况。

另一个评估抽样框与目标总体之间差别的程序是,比较目标总体的规格与抽样框的相应参数。由于高校通常在新生入学时配给他们学校电子邮件地址,涵盖误差不像其他领域,对于IR网络调查来说不是大的威胁。

2、质量保证程序

研究人员需要确定目标总体的工作定义,明确目标总体的规格,找到一个可以随即使用的、尽可能多包含目标总体的列表。IR背景下,典型的目标总体是具有某些特征的学生群体,如申请人学的未来新生,或目前就读某个专业的在读生,或在某个时间段内毕业的毕业生等。高校通常有较为完善的学生数据库,因此,抽样框往往是稳定的、完整的、可获取的。因此,涵盖误差产生可变误差和系统误差的风险通常较低,且更可控。

五、抽样误差的质量检查

抽样误差指由抽样造成的调查估计值与目标总体参数之间的差别。参照图2,抽样误差表示抽样框和样本之间的差距。一套好的调查数据在已知人口参数上是代表抽样框的。当使用概率抽样时,边际误差常被用于测量随机抽样误差水平。通常可接受的边际误差是在95%置信水平下小于5%。

1、质量控制程序

样本代表性可通过比较所得样本和抽样框在某些背景特征上的频度分布来确定。若频度分布差别可以忽略,则认为所得样本在这些指标上代表抽样框。

边际误差受方差和样本量的影响:方差越小,样本量越大,边际误差越小。我们需要知道总体标准差以便估计等距变量或比率变量均值的边际误差。IR调查项目通常采用有限总体,变量的边际误差可以基于目标总体和样本量来计算。

2、质量保证程序

抽样误差大小比其他类型的调查误差更为可控,故被称为有意误差(intentional error)。抽样误差可以通过适宜的选样得到控制,确保对抽样框随机选择,以及总体中关键子群在样本中具有充分的代表性。适当的抽样过程要求考虑概率抽样、分层、聚类和样本量四个方面。抽样偏误可以通过给所有元素平等的选择机会而轻而易举地去除;当样本量大且样本是分层而不是聚类时,可以减少抽样差异。

适当的抽样策略涉及合理样本量的计算。样本量由抽样框、期望的边际误差、预期回答率、数据分解需要和可用资源来确定。表3显示了一个例子。请注意,表中呈现的边际误差是按二分变量使用最大方差(即标准差等于0,5)计算的。

对于10,000名学生的抽样框而言,如果研究员期望所获得的边际误差低于5%,则需要的样本量是400(边际误差为4,8%)。如果预期回答率为20%,则预计共需邀请2000名学生参与调查。若数据分析要求将这400个样本分为子组,比如对于一所由8个学院组成的大学而言,则每个子组中有50名回答者。这个回答者数量对于描述性统计分析是可以接受的。但是,如果打算进行统计推断分析或多变量数据分析,考虑增加样本量到800(这个数量取决于调查需要解决的问题),在预期回答率仍保持20%的情况下,则边际误差为3,32%,样本量为4000。如果调查以网络模式进行,调查受邀者增多也无妨,因为更大的规模不会使调查总成本过多增加。但是,当使用邮件调查,来自调查问卷的分发和数据的输入、处理的成本增加将是确定样本量的一个考虑因素。研究员应平衡所有这些考虑因素。

六、无回答误差的质量检查

对照图2,无回答误差表示样本和回答者之间的差距。此误差的发生,是由于样本中的部分受邀者没有应答调查邀请,或没有回答调查中的一些问题。因此,无回答误差有两种:单位水平的无回答和题项水平的无回答。当调查数据与整个样本数据之间在某些重要特征上有系统性差别时,就会产生无回答偏误。

1、单位无回答的质量控制程序

测量无回答偏误是无回答率以及回答者与无回答者之间差值的函数计算。由于无回答率是没有回答调查的样本在合格受邀者中的比例,无回答率可以根据回答率计算而得。因此,高质量的调查数据以合理的回答率以及回答者与无回答者之间在调查所关心的特征上差别不显著为特点。

计算回答率的难点通常在于对其分母的计算。IR调查项目的抽样框是从明确定义的目标总体中仔细提取的,其回答率的计算主要有两种方式:一种是c/(C+NC+R+O),C=完成的问卷,NC=未联系上,R=拒绝回答,O=其他未回答(如由于语言障碍无法理解问题的人);另一种是简单的c/(S-NC),c=完成的问卷,s=抽样调查接收者,NC=未联系上。这两个公式表明,被抽样的调查接收者实际上由调查回答者和三组未回答者(即未联系上、拒绝回答和其他类型的未回答者)组成。

回答者和未回答者之间的差别可以用三种方法来评估。首先,评估未回答者与调查主题间的交互程度。通常对调查主题参与程度高的人比不参与的人更可能回答调查,而那些对调查主题意见中立或经验较少的人倾向于忽略问卷。例如,在针对大学生如何使用图书馆的调查中,研究员应切记,得到的回答将过度代表图书馆实际使用用户的特点,因为那些使用图书馆服务的学生更容易回答这项调查。因此,若从这些数据得出关于所有学生图书馆使用情况的结论,是错误的。第二,将回答者与抽样框在背景特征上进行比较,并考察回答者中是否存在不充分代表抽样框子群,以及未被充分代表的子群成员是否倾向于以不同的方式回答某些关键的调查问题。第三,考察后期回答者的特点。那些直到最后跟进才回答的人可能与未回答者具有相似特征,因此,从后期回答者的回答中可以对未回答者的回答进行推断。

2、题项无回答的质量控制程序

与单位无回答误差相似,题项无回答误差是题项无回答率以及题项回答者与无回答者之间差别的函数。题项无回答导致数据缺失。因此,在题项水平上,高质量调查数据有两个特征:每个题项的缺失数据所占比例合理;每个题项回答者与无回答者之间的差别不显著。

上述两个方面涉及题项无回答分析。应对存在较大比例数据缺失的题项做标注,并做进一步调查。题项无回答分析包括检查:(a)无回答的发生是否与受访者的某些背景特征相关,或者说,某个受访子群对关键问题的回答是否与其他人不同;(b)不同题项的无回答是否具有相关性。

题项无回答分析可在三个方面进行:(a)计算每个题项缺失数据的比例;(b)确定缺失数据的特征是完全随机缺失,还是随机缺失,或是不随机缺失;(c)调查有大比例缺失数据变量出现的原因。

3、无回答的质量保证程序

质量保证程序产生于三种类型的单位无回答:未联系上、拒绝回答和无法参加。第三种类型的单位无回答情况也适用于题项无回答,即某些受邀者不能够回答一些问题,他们或觉得有些问题很难理解,或不记得被提问的信息,或问题超出他们的回答能力。调查无回答的现象越来越多,很多是调查拒绝率上升造成的。当前IR调查项目的一个问题是,调查数目多,在受访者中产生调查疲劳。

无回答的原因可能为社会环境(如调查疲劳),与受访者的背景特征有关(如男生会比女生回答调查请求的可能性低),也与问卷设计和调查实施方式有关。与调查设计相关的因素比社会或个人因素更为可控。

从调查设计的角度减少三种类型的调查无回答是有不少办法的。针对联系不上被访者的情况,可以尽力获取被访者准确的联系信息;使用网络调查时,创建不会被过滤器标记为垃圾邮件的电子邮件信息。针对拒绝回答的有效方法有:在调查之前通知被访者;撰写礼貌的初次接触信函(信件或电子邮件);注意要求参与调查的方式(如语气、签名、调查的重要性和保密性等)、合理的提醒次数、适当的数据收集时机和适当的鼓励机制。为了提高被访者的参与能力,调查工具应长度适宜、容易阅读,提问有相关性的、可获取的信息。创造有助于调查的环境也将有利于增加回答。如果调查协调机制到位,调查疲劳可以得到缓解;当了解到调查结果已被采用时,被访者一般会更可能作出回答。

七、调查后误差的质量检查

可靠的研究结果和有效的结论取决于对个体数据和聚合数据的正确处理。调查后误差指在调查数据收集之后的数据处理过程中发生的误差。在这个过程中,原始数据转化为由调查统计数据所代表的信息。如图2所示,调查后误差发生的时间段有三种:测量路径上的回答变成被编辑的回答时;代表路径上对回答者作出调整时;将被编辑或被调整的回答转换成统计数据时。

1、质量控制和保证程序

数据收集后的数据处理可分为数据清理、数据调整和数据分析三种。数据清理包括检查数据录入的准确度以及检查异常值和有矛盾的数据。数据调整包括使用权重,处理缺失数据,并在需要时创建复合变量。数据分析包括信度、效度分析,检查统计假设,选择适当的统计方法,进行统计计算。使用开放式问题时,需要对回答进行编码,这涉及检查编码者差异和编码结构中的不足。对数据清理、数据调整和数据分析的准确性和恰当性进行量化通常很难,和其他类型的调查误差不同,所有这些步骤都受到研究员的控制。因此,每个程序是否正确、适当很大程度上依赖于研究员的专业知识和职业风范(如数据处理时的勤奋严谨、一丝不苟和坚持不懈)。然而,为了实现质量控制,应对数据的清理、调整和分析程序作详细记录,从而为数据处理的质量方面提供证据。

八、启示

本文提出的调查数据质量战略对IR有两个实用的启示。首先,调查数据的质量需用多个指标衡量。调查数据的质量是多方面的,这意味着依靠单一指标来评估调查数据是具有误导性的。人们对回答率的盲信就是个很好的例子。IR人员有时会听到信息用户这样评论:“这样低的回答率,调查结果必有问题”;“回答率高,因而调查数据很好地代表了总体”。

调查数据质量策略的标准和程序(见表2)表明,高回答率虽然非常重要,但它仅是高质量调查数据的一个指标。为评估单位无回答误差,研究员还需考虑所关心的特征上回答与无回答之间是否存在区别。评估一套调查数据的质量时,除了回答率,还应考虑从其他调查误差得出的质量指标,包括会影响到测量误差的回答偏误以及测量抽样误差的样本代表性和边际误差。另外,回答率并不说明调查回答具有代表性,代表性是无回答偏误的另一个指标。因此,较高的回答率会降低产生无回答偏误的风险;然而,如果未回答者在某个调查变量上与众不同的话,高回答率并不一定导致调查数据无回答偏误低的结论。因此,本文提出的数据质量策略有助于破除一些有关调查数据质量的盲信,且鼓励研究员检查其他质量指标,而非仅仅注重如回答率这样的一个指标。

第二,记录调查数据质量的重要性。调查数据质量策略使得质量记录更加重要。该策略基于调查总误差理论,从调查误差类型出发,包含针对每类调查误差的质量标准及相应的质量控制和质量保证程序。表2为获得调查数据的质量证据以及收集这些证据的程序提供了纲要。因此,归根结底,IR研究员的任务是,从所获得调查数据的特征以及调查过程中搜集证据,使信息用户信服所采集的调查数据对于做出的结论是可靠的。搜集、呈列的证据越多,越能赢得信息用户的信任。这一证据收集过程需要记录。

关于调查数据质量证据的信息被称为元数据(即关于数据的数据)。可以用以下四种类型的元数据来记录调查数据的质量:定义类元数据(调查结构、目标总体、抽样框、编码术语);程序类元数据(数据收集程序);操作类元数据(数据清理、数据调整以及数据分析程序);系统类元数据(数据格式、文件位置、检索协议和编码本)。

调查记录的目的是沟通调查数据的特征及获得质量指标的程序,从而建立并加强信息用户对调查结果的信任,并且帮助他们以适当的方式解读调查结果。根据表2中调查数据质量策略中的要素,我为IR研究员设计了一份核查列单(见附录),以方便他们的调查记录。

九、总结性思考

本文基于调查总误差理论为高校院校研究提出一套调查数据质量策略。该策略包括数据质量的指标(即质量标准),以及以测量和减少误差为目标、用于检查调查数据和调查过程的程序(即质量控制和质量保证程序)。表2对该策略作了总结,策略的组成部分在文中分别得到了阐述,附录为IR研究员提供了一份核查单。

有关调查数据质量问题我有两个总结性思考。一个是调查数据质量与调查质量的关系问题。Lyberg和Biemer将调查质量概述为三个层次:产品质量(“令主要用户满意的一组产品特性”)、过程质量(“设计完好和严格控制的过程”)和组织质量(“可靠的组织特征,以确保该组织有能力开发出能够提供高品质产品的可靠过程”)。这三个层次是相互依存的(即组织质量为过程质量所需,过程质量为产品质量所需),并均有助于高质量的决策。

调查数据质量,实际上是调查产品质量的一部分,并“通过过程质量实现”。调查数据质量策略主要涉及调查质量三个层次中的两个,即产品质量和过程质量。组织质量与组织文化和信息管理相关,涉及调查数据质量的信息基础设施,不在本文的讨论范围中。

另一个思考是关于调查数据质量在McLaughlin和Howard提出的IR信息支持周期中的位置(见图1)。当本文提出的调查数据质量策略融入信息支持周期,实际上IR人员在这个周期中承担了大部分责任,即保管人和中间人的责任,并执行信息支持周期中的较大比例的工作,即从确定概念到报告的过程(尽管这是与管理者一起完成的)。相比之下,在使用管理数据时,IR人员通常不会参与数据的收集和存储阶段。因此,在调查项目中,研究者的角色在信息支持周期中更为重要。这也是对调查数据质量问题作进一步研究的又一个原因:进一步提高调查数据质量,以便更好地履行IR的信息支持职能。

关注细节和质量控制体现了IR人员和IR行业的有效性。在此背景下,本文希望对填补院校研究调查质量控制方面的空白做出贡献。

附录

IR调查项目调查数据质量核查列单

检查测量误差:

*调查工具的构念是否遵循了严格的设计流程?进行过认知访谈吗?

*是否有证据显示调查数据的信度?

*是否有证据显示调查数据的效度?

*回答的发生有何特点或趋势?

检查涵盖误差:

*明确定义了目标总体的规格吗?

*抽样框尽可能多地包括了目标总体的要素吗?抽样框的参数与目标总体的规格一致吗?

*抽样框中存在未涵盖、不合格单位或重复单位的问题吗?

检查抽样误差:

*样本量合理吗?(期望获得多少受访者?期望的边际误差是多少?预期回答率如何?)

*使用了什么抽样方法?方法合适吗?样本的入选几率平等吗?(如果使用分层抽样)哪些子群的入选几率不平等?

*基于这样的受访者数目和目标总体数目,边际误差是多少?获得的边际误差合理吗?

检查无回答误差:

*回答率合理吗?

*关于调查的主题,哪些样本会更有可能回答调查?哪些样本不太可能回答呢?

*受访者与目标总体(或抽样框)在某些背景特征上差距有多大?

*重要的样本子群在回答者中的代表性如何?

*在调查问卷的设计和(或)调查管理上是否存在任何缺陷,可能导致了一些调查者没有回答呢?

*存在大比例数据缺失的题项吗?原因可能是什么?缺失的数据报告了吗?

检查调查后误差:

*数据是如何清理的?程序恰当吗?

*是如何给数据编码的?程序恰当吗?

*(酌情考虑)是如何给数据加权计算的?方法正确吗?

*(酌情考虑)缺失的数据是如何填补的?方法合适吗?

定量调查方法篇8

(二)美国商品流量调查美国商品流量调查CFS(commodityflowsurvey)是全面掌握境内货物发送运输情况的最主要调查方法,自1963年以来每隔5年开展一次。CFS调查对象是境内有带薪雇员的基本单位,也就是运输服务使用者,通常针对发送方进行调查。调查抽样框是依托普查局的商业注册数据库进行构造。在调查实施过程中,调查样本每个季度会收到普查局邮寄的一份调查表,填写完毕后反馈回去。CFS调查是美国经济普查的组成部分,由美国运输统计局和普查局联合开展,运输统计局负责的工作是向普查局就调查内容、调查对象、调查结果估算等提供指导、建议和协助;普查局负责的工作是具体实施调查以及报告调查结果。

(三)我国城市综合交通调查综合交通调查通过基础数据的收集、整理和分析,揭示、掌握有关城市交通运行机理和规律,为城市规划、管理、建设、经营决策制定奠定基础。经过多年实践,城市综合交通调查技术体系日益成熟完善,主要围绕交通需求、交通供给与交通特征等方面开展相关调查。从全国各地开展的综合交通调查来看,相对于人流、车流的调查,货运调查普遍是薄弱环节。1.北京北京市分别于1986年、2000年、2005年开展了三次综合交通调查,在第三次综合交通调查中,共有8项具体调查内容,没有进行货物运输调查。2.上海上海市于1979年开展了货车全样调查[5],由于当时货运市场总体是国家独营,实行“统一计划、统一货源、统一运价”的“三统一”管理,政府监管手段足并且车辆少,可以依靠公有制运输企业的生产数据,有利于调查实施。2009—2010年,为进一步系统了解全市交通现状,办好2010年世博会,科学制订交通发展规划和改善交通的对策措施,上海市开展了第四次综合交通调查,在延续以往调查基本内容基础上,根据交通发展新特点扩充了大量调查内容,涉及四项共24个具体调查项目,其中涉及到货运的主要是货运车辆出行特征调查。目前,城市综合交通研究与规划的重心主要在客运,重点是居民出行需要,很少涉及货运,即使涉及货运规划,也主要是货运走廊或者物流园区的规划研究。城市货运调查是进行城市货运规划的基础,城市货运调查数据的缺乏制约了城市货运相关工作的开展。

二、北京市中心区货运调查实践

(一)调查背景2009年通过的《北京市道路运输条例》第二十四条规定:“市交通行政主管部门所属的道路运输管理机构会同市商务、建设、农业、市政管理等相关部门建立协调配合机制,定期归集整理北京市生产、生活等重要物资的货运需求信息并向社会公布,引导运输供给与需求的平衡发展。”在此背景下,为全面、系统掌握城市中心区货运需求总量、结构及时间、空间分布等特点和规律,加强和改善城市中心区货运管理和组织,促进货运供需平衡发展,缓解交通拥堵,按照市交通运输委员会和市统计局的部署,市交委运输管理局、市统计信息咨询中心和交通运输部科学研究院于2010年11月联合开展了从需求方入手的城市中心区货运需求量调查。本调查所称“城市中心区”是指北京市五环路(含五环路)以内的行政区域范围。

(二)调查目标根据行业管理部门要求,一方面要全面了解城市中心区生产、生活对货物运输需求的总体情况,另一方面要掌握保障城市正常运行的重点物资运输需求情况,具体包括以下内容:中心区、四环路以内货运总量和保障物资货运总量,实际经营地在五环路以内的法人单位、个体经营户在中心区、四环路以内的货运总量及保障物资货运总量;中心区、四环路以内货运特征及保障物资货运特征:获得分行业、分货类货运量,分车型货运量,分运输方式货运量,分时段货运量;中心区、四环路以内运力配备需求及保障物资运力配备需求———分车型运力配备需求、昼运运力配备需求(见图1)。

(三)调查对象1.实际经营地(办公地)在五环路以内各行业(道路运输业除外)法人单位和个体经营户。2.市发展改革委、市商务委、市经信委、市住建委、市农委、市教委、市市政市容委、市水务局、市园林绿化局、市卫生局、市药监局、市新闻出版局、市邮政管理局和市路政局的主管或归口管理重点货运需求单位。

(四)调查内容针对城市中心区法人单位和个体经营户调查货物运输起点、终点、货物种类、运输车型、运输车辆吨位、运输方式、运输时段、运输货物重量、运输货物体积以及运入或运出等信息。配合需求调查,针对部分样本法人单位进行问卷调查,调查各单位对目前城市中心区货运管理的意见和建议。同时,通过全市每年两次各个区县共同开展的货运车辆抽样调查(每次货运车辆抽样调查共调查约1900个样本),从运输服务供给的角度进行调查补充,并为运力配备测算奠定基础。

(五)调查方法采用分层简单随机抽样的方法进行调查,并根据企业规模大小分为必调查样本和随机抽样样本。法人单位采取发放调查表、调查对象经培训后填报、调查人员进行调查表收集与审核的方式;个体经营户采取调查员“面访”(入户调查)的方式。

(六)抽样方法根据北京市第二次经济普查《法人单位名录库》、《个体经营户名录库》,以实际经营地(办公地)在北京市五环路以内、营业状态为“营业”的法人单位和个体经营户(不含道路运输业法人单位、个体经营户)构成抽样单元。根据北京市第二次经济普查及北京市住建委建设单位数据,以中心区总货运量为目标估计量,在保证95%置信度、理论极限相对误差控制在10%的情况下,利用奈曼分配(最优分配)原理计算所需最低理论样本量。中心区有法人单位15万个,共划分16个调查子层,法人单位最低样本量为2431个;有个体经营户24万个,共划分13个调查子层,个体经营户最低样本840个。

三、调查结果

(一)货运量根据本次调查,2010年北京市城市中心区货运总量为10041.07万吨,货运总车次3639.61万车次,城市中心区日均货运量27.51万吨,日均货运车次9.97万车次。根据对北京市发展改革委、市商务委等14个委办局主管或归口管理重点货运需求单位的货运需求数据进行汇总,中心区城市运行保障货运总量为5309.20万吨,货运总车次779.10万车次。城市运行保障货运量占城市中心区货运总量的52.87%,车次数占城市中心区车次总数的21.41%。

(二)空间分布本次调查根据北京市货运通行管理规定,将货物运输起终点的区域划分为三个:四环路内、四环路至五环路之间、五环路外。2010年四环路内货运总量为3404.24万吨,货运总车次2740.10万车次,四环路内货运量占城市中心区的33.90%,车次数占75.29%。从运量的流向分布来看,由五环路外运到四环路至五环路之间的运量最大,占33.99%;其次是四环路至五环路之间运到五环路外,占18.34%。从车次流向分布来看,由五环路外运到四环路内的车次数最多,占25.40%;其次是四环路内运到五环路外,为14.87%。

(三)时间分布本次调查将运输时段划分为三个区间:23∶00—次日6∶00、9∶00—16∶00和其它,并将时段划为白天和夜间,白天指6∶00—23∶00。调查结果表明,城市中心区9∶00—16∶00时段的货运量和车次数最大,其次为23∶00—次日6∶00,其它时段最小。

四、北京市中心区货运调查特点

(一)建立中心区货运调查规章制度保障2009年,北京市通过《北京市道路运输条例》,要求市道路运输管理机构会同市商务、建设、农业、市政管理等相关部门建立协调配合机制,定期归集、整理、生产生活等重要物资的货运需求信息。正是在这一条例的有力保障之下,市发展改革委、市商务委等委办局积极配合,高效协作,保障了货运调查得以顺利实施。

(二)构建高效协调、执行力高的组织保障体系北京市中心区货运调查在市交通运输委员会和市统计局的部署协调下,具体由市交委运输管理局、市统计信息咨询中心和交通运输部科学研究院联合组织开展,市统计信息咨询中心召集调查对象、发放调查表和回收调查表,交通运输部科学研究院设计调查表并进行调查结果分析,通过交通部门和统计部门各自运用自身资源、发挥各自优势,调查得到被调查企业的充分信任,被调查企业配合程度较高,能够积极参加调查培训,理解调查表填写要点,整个调查实施过程高效协调、执行力高。

(三)基于真实、全面名录库建立整体抽样框建立科学的抽样框是开展抽样调查的基础和前提,北京中心区货运需求调查抽样框是在真实、全面的全市第二次经济普查《法人单位名录库》、《个体经营户名录库》的基础上构建的,保证抽样框完整而不重复。该名录库涵盖了五环路内从事第二产业和第三产业经济活动的全部法人单位、产业活动单位和个体经营户,包括了除农业以外的所有国民经济行业。该名录库在统计部门组织的多项以基本单位为调查对象的调查工作中得到了充分使用。

(四)根据调查统计指标设计调查方案、明确计算方法根据行业管理部门全面掌握城市中心区货运需求的总量、结构及时空分布等特点和规律的需求,细致设计调查实施方案,调查方案中明确根据调查样本推算、计算相关指标的思路与方法,并将样本分为必调查层和随机抽样层,提高了样本的代表性,保证了调查结果的精度。

(五)基于运输服务需求方开展货运调查与从运输车辆着手开展调查不同,货运需求调查是从运输服务需求者入手,前者是从运输服务提供者入手。并且中心区货运需求调查关注五环路以内特定区域内的货物运输情况,因此与CFS调查不同,调查内容既包括需求方货物发送需求,也包括需求方货物运达需求。

(六)货运需求调查与货运车辆调查有机结合货运车辆生产过程也是使用者对交通运输服务的消费过程,在中心区货运需求调查中有机结合了北京市每年开展两次的货运车辆抽样调查结果,运输需求调查与运输供给调查相互补充,深化了调查结果的分析,在满足货物运输需求的基础上,为引导货物运输需求并提高运输组织服务效率提供决策支持。

五、结语

随着城市化进程和经济社会的快速发展,城市货运发展已上升到维护经济稳定、保障和改善民生的高度。在详实的货运调查基础上,编制货运交通规划,出台相关针对性政策,切实提高货运效率和服务水平,并实现城市客运交通、货运交通和经济社会的协调发展,将是未来重要的发展方向。通过北京市中心区货运需求调查,比较全面、系统地掌握了中心区货运需求总量、货类结构及时间、空间分布等特点和规律,为在保障居民日常生活及城市正常运行的基础上进一步加强和改善城市中心区货运管理和组织奠定了坚实的基础。根据《北京市道路运输条例》,每隔几年北京市仍将继续开展此项调查工作。通过北京市中心区货运需求调查实践,总结了调查制度保障、组织模式、调查方案、调查内容、调查方法等方面的特点,为其它城市开展货运调查提供了经验借鉴。

上一篇:入学教育汇报范文 下一篇:对政治工作的意见建议范文