有关数据预处理的探讨

时间:2022-09-04 11:48:15

有关数据预处理的探讨

摘 要 本文对居中型和区间型两种适度指标进行论证和例证,考察了这两种数据处理方法对主成分和因子分析这种综合评价结果的影响。另外,本文用文献①“初始化”思想对极差法进行分析,得到结论,即处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息。

关键词 数据处理 同趋势化 标准化 变异

中图分类号:TP391 文献标识码:A

The Discussion of Data Preprocessing

LIANG Xiaojia, ZHOU Juling

(Department of Mathematical sciences, Xinjiang Normal University, Urumqi, Xinjiang 830054)

Abstract Argument and illustration of some kinds of appropriate indicators is done in this paper, such as the indicators of medium and interval. And the paper looks at the effect of the comprehensive evaluation results from the two data processing method on principal components analysis and factor analysis. In addition, this article analyses the process according to the method of "Initialization" in the literature [1], then come to a conclusion of which the data covariance matrix after processing not only eliminate the influence of index dimension and order of magnitude, and also can contain all the information in the raw data.

Key words data processing; communalities; standardized; variation

0 引言

综合评价是依据被评价对象的过去或当前一段时间的相关信息,对被评价对象进行客观、公正、合理的全面评价。由于来自实际的指标数据可能是各种各样的,每个评价对象又涉及多个指标,特别是对于不同类型、不同单位、不同数量级的数据存在着不可公度性,所以在一个较复杂的综合评价问题中,可能同时含有极大型指标、极小型指标、居中型指标和区间型指标.做这样的综合评价问题时,必须先将不同类型的数据做一致化处理,即通过一定的数学变换把性质、量纲各异的指标转化为可以综合的一个相对数, 即对数据进行标准化。

对于数据的处理,目前很多学者已经进行了多方面的研究,并已获得了一定成果。例如:韩中庚提出了定性数据指标的量化处理方法;②陈军才论述了同趋势化方法对综合评价的影响,并指出了适用条件;③张立军、袁能文分析与比较了各种指标一致化与无量纲化方法对综合评价结果的影响,并对有效性进行测度;④张卫华、赵铭军找到了一种“合理排序”来进行无量纲化方法的优选;⑤俞立平、潘云涛、武夷山根据选择标准化方法的三大原则筛选出一种正项指标标准化方法,并提出一种负项指标标准化方法;⑥郭亚军、易平涛构建了一种复合无量纲化方法――“极标复合法”;⑦贾明辉、华志强提出了一种新的无量纲化方法――初始化法,并讨论了这种方法的优势。

本文研究陈军才文献中的同趋势化方法对主成分和因子分析的影响,欲对另外两种适度指标(居中型和区间型)进行论证和例证,考察这两种数据处理方法对综合评价结果的影响。另外,本文用贾明辉文献中 “初始化”思想对极差法进行分析,考察极差法的性质。

1 两种同趋势化方法对主成分和因子分析的影响

这里的同趋势化方法均取自韩中庚文献中的方法,探求使用此方法处理后的数据间发生的变化。

1.1 将居中型化为极大型

其中,、分别为的极大值和极小值。

命题:通过这种变换后,数据间正负相关关系的变化不确定。

证明:不妨设为其他指标,为居中型指标。

样本相关系数 = 。

设 = 0,因为>0,>0,当 = 0时, = 。

只需证与・是否同号。即原来负相关的关系,可能变为正相关,也可能负相关,也可能变换前后关系不确定。

・ = ・()

简化为只需证与・()是否同号。

若变换前后关系不定,只要举例求证

例证:样本数据为{(-1,1),(-2,2),(-3,3),(6,1)}时:

= -8

样本数据为{(-1,1),(-2,2),(-3,3),(5,1)}时:

= -9

样本数据为{(-1,0),(8,0),(2,-1)}时:

= -2

这里只验证第一部分,同理可证第二部分。

运用这种居中型向极大型的变换方法,变换前后正负相关关系不确定。

命题成立。

1.2 将区间型化为极大型

对于区间型指标[,],

其中 = {, },、分别为的极大值和极小值。

命题:运用这种区间型向极大型的变换方法,变换前后正负相关关系不确定。

证明:这里只验证第一部分,不妨设>。

这样只需证与( )是否同号即可。

・( ) = ・

只需证与・()是否同号。

故同理,可以例证说明

综上,得到以下结论:经过对上述两种适度指标的分析:(1)这两种极大型变换会将原指标均变为非负数;(2)这两种极大型变换对极大型指标与其他指标之间的相关关系的改变不能确定。

2 极差法的优良性质

设变换前第个评价对象第个指标为( = 1,2,…,; = 1,2,…,),各指标的相关系数为,极差变换后第个评价对象第个指标为( = 1,2,…,; = 1,2,…,),利用“极差化”方法来消除量纲后,各指标的相关系数为,令 = {,,…,}, = {,,…,},有 = , [0,1]。

记()的协方差矩阵为 = 。

= ()(),

= = = [()] = ,

类似地 = ,

其中为原始数据()的协方差。

特别的,当 = 时, = 。

因此,使用“极差化”方法来消除量纲得到的新数据的协方差矩阵主对角元素反映出了各指标变异程度的差异信息。

然后有:。

这就证明了“极差化方法”的处理不改变各指标间的相关系数,保留了原始数据间的差异。

所以,“极差化”处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息。因此“初始化”“极差化”在数据标准化中是非常合理的方法。

3 小结

对数据进行处理时,采用不同的方法会直接影响综合评价结果与排序的准确性。本文就两种同趋势化方法对综合评价方法的影响,以及极差法这种无量纲化方法的一些优良性质进行探讨,发现这两种同趋势化方法对综合评价方法的影响是不确定的,而“极差化”也同样具有“初始化方法”的优势,即处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息。关于文中同趋势化方法对评价影响的不确定性,必须说明的是其中的例子只是为了求证变换前后相关关系的不确定性、以及对最终评价结果的影响。这种不确定往往与样本数据有关。

但是值得一提的是,综合评价是评价者的主观行为,在每一个环节上都体现着评价者主观的意志和导向,所以在实际问题中需要评价者根据具体情况选择数据处理方法,处理方法应尽可能地简洁并具有可操作性。总之,评价者应遵循综合评价的理论研究始终为综合评价的实践活动服务的原则。

基金项目:2013-2014年度新疆师范大学研究生科技创新项目《运用统计方法实现S-P法的改进》.

注释

① 贾明辉,华志强.主成分分析数据处理方法探讨[J]. 2008.7.23(4):379-381.

② 韩中庚.数学建模方法及其应用(第二版)[M].北京:高等教育出版社,2009(7).

③ 陈军才.主成分和因子分析中指标同趋势化方法探讨[J].统计与信息论坛,2005.3.20(2):19-23.

④ 张立军,袁能文.线性综合评价模型中指标标准化方法的比较与选择[J].统计与信息论坛,2010.8.25(8):10-15.

⑤ 张卫华,赵铭军.指标无量纲化方法对综合评价结果可靠性的影响及其实证分析[J].统计与信息论坛,2005.5.20(3):33-36.

⑥ 俞立平,潘云涛.武夷山 学术期刊综合评价数据标准化方法研究[J].图书情报工作,2009.6. 53(53):136-139.

⑦ 郭亚军,易平涛.线性无量纲化方法的性质分析[J].统计研究,2008.2.25(2):93-100.

上一篇:物理实验教学模式探讨 下一篇:唐璜 看似色情,实为爱情