预测疾病发病率的统计分析方法进展

时间:2022-09-06 12:26:22

预测疾病发病率的统计分析方法进展

摘要:医学统计作为医学研究的辅助工具有着非常重要的作用,从医学实验设计到数据分析方面都有着广泛的运用。统计分析方法的应用能够有效的提高医学研究的质量。本文通过分析预测疾病发病率统计分析方法,以期能给广大医务工作者科学研究提供一定的参考。

关键词:疾病发病率 统计分析方法 进展

对于疾病的控制,尤其是传染病的有效控制,离不开对疾病发病率有效的预测和检测。疾病发病率预测是通过长期的、有计划的观察和搜集相关数据,并运用合理的统计分析方法对疾病发病率进行预测。目前,我国已经建成了全国范围内的疾病信息报告网络,通过网络能够对全国疾病发病率进行检测。但是,目前我国对于这些检测数据的利用仅仅停留在描述性统计分析的阶段,未发展到运用高级有效的统计方法进行前瞻性的预测分析。本文通过研读大量文献,归纳国内外文献中利用到的有效的统计分析方法,进行相关的概述。

一、预测疾病发病率统计分析概述

由于疾病监测系统搜集的数据十分庞大,并且对于这些数据的处理也有着多样的处理方法。因此,分析这些数据的方法是具有前瞻性和回顾性的,由于本文主要是预测疾病发病率,所以主要介绍前瞻性的分析方法。另外,根据数据选择的不同时间段可以把数据分析分为年度、每周和每月分析。数据选取的不同,分析出来的结果不同,用于预测的范围也不同。

另外对于疾病检测系统数据的回顾性和描述性分析已经非常成熟,可以通过利用不同统计图表来刻画不同的信息。现有文献对于这方面的研究主要用来分析检测数据是否具有很好的时间聚集和空间性。

本文要介绍的前瞻性的研究方法,主要是通过之前的监控数据,对于未来疾病发病的趋势进行有效的分析和预测。前瞻性的分析方法主要分为三种:时空聚集性分析方法、空间分析方法、其他分析方法。

二、时空聚集性分析方法

时空聚集性分析方法是根据不同地区人口分布的差异来矫正人口空间分布,从而检验疾病发病率的时空分布是否服从随机状态。可以按照不同的检验目的分为一般聚集性和焦点聚集性检验。一般聚集性检验是在没有先验条件下即没有先验假设中对其进行聚集性定位。其中又分为全局聚集性和聚集性探测检验两类。全局聚集性检验是对整个要进行研究区域检验其是否存在聚集性,而聚集性探测检测是对拒不进行聚集性定位。焦点聚集性是检测在实现确定的区域附近是否具有拒不聚集性的存在。

(一)聚集性探测检验

聚集性探测检测的方法主要是最大超额时间检验、Besag Newell方法、Kulldorff空间扫描统计量、Turnbull方法。较为成熟并且应用最多的方法是Kulldorff空间扫描统计量,其核心思想是在进行检测的区域上面构建一个圆形扫描窗口,让这个窗口在区域上面移动,其扫描的半径不断增加最终增加到设定好的上线,从而由于半径不同会出现许多的扫描窗口,通过计算这些窗口的内外似然值,其中具有最大似然值的窗口不可能是随机产生的群体。2005年,相关学者对于这个方法进行了改良,把窗口并不限于圆形扩展为任意形状的窗口。

(二)全局聚集性检验

全局聚集性检验有K个最邻近法、Oden方法和Mantel方法、Ipop方法、Cuzick Edwards方法和Bonetti Pagano的M统计量。这里面最新的方法是由Jacquez(1996)提出的K个最邻近法,通过这个方法可以有效的检验空间区域内相邻的病例在时间上也存在相邻性。并且相关学者应用这个方法有效的验证了挪威等地牛群传染病中的时空聚集性。

三、时间分析方法

(一)时间序列分析方法

由于疾病发病情况通常具有季节性和相关性,因此可以根据此类数据特性利用时间序列分析方法对疾病发病率进行有效的预测。时间序列分析应用于医学领域是从计量经济学领域衍生过来的。其主要的模型有:指数平滑模型、移动平均模型、ARIMA模型(自回归移动平均模型)。其中对于自回归移动平均模型的应用是最为广泛的。

例如:全部发病资料取自青海海西州第一人民医院。经过核对、补漏,从而保证资料的准确和完整。运用Excel2003及EViews3.1对2001年1月至2007年12月海西州地区高血压发病资料进行整理分析,统计海西州地区2001~2007年的高血压月发病率(记为yt)。

自回归移动平均模型又称为Box-Jenkins模型,用ARIMA(d,q)表示。这个模型可以有效的对非平稳数据进行预测,其中模型中的d代表差分阶数即把非平稳数据转化为平稳数据进行的差分次数,q用于表现模型移动平均的技术。如果遇到平稳的数据则可以通过建立ARMA模型进行预测,通常发病率数据是非平稳的数据,因此ARIMA模型的运营较为广泛。ARIMA模型主要通过四个步骤进行预测分析。首先,对原始数据进行平稳性判断,主要通过分析数据的ACF和PACF图来进行平稳性判断和模型的选择。其次,参数估计和模型诊断,如果通过诊断模型符合要求则下一步进入预测应用。通过合适的模型利用过去的数据对于未来传疾病发病率进行预测。

按上述病例进行分析:模型ARIMA(p,d,q)的公式为:yt=1yt-1+2yt-2+…+pyt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-p。其中p、q为模型的阶数;常数系数1、2、…p和θ1、θ2、…θp为模型的参数;yt-1、yt-2、…yt-p是时间序列在t-1、t-2、…t-p时刻的观察值;εt-1、…εt-q为残差序列。ARIMA模型需确定三个参数,即自回归阶数(p)、差分次数(d)、移动平均阶数(q),它首先通过差分把时间序列的季节性消除(达到数据平稳),然后建模,最后估计参数。对非季节性数据,一般求一阶差分即可。若时间序列的季节性变动周期为T,则时间序列yt的一阶季节差分序列Tyt 为Tyt =yt-yt-T(t>T)。

(二)过程控制图

这种方法的核心思想是假设随机变量独立且满足正太分布,通过对统计量y的构造,对统计量进行分析,当其超过设定的控制界限的时候可以认为其为非正常时间。因此,对于这种方法应用的关键是选择合适的控制界限。通常通过选择标准差的倍数来设定控制界限。这其中常用的过程控制图有移动平均图、指数加权移动平均图和Shewhart图、累积控制图。

(三)历史极限法

历史极限法是将疾病目前4周的发病数量与之前的基线进行比较,基线是指整个果断5年的相应的前面、当前和之后4周的发病数据的平均值。从而,根据过去5年的这15个数值,并且现在的4周出现的发病数量的总和除以过去5年15个数值的平均值,并将这个壁纸在对数坐标中表现出来与之前的历史基线进行比较。这个方法简单易用,但是其并未考虑相关性和趋势性,不一定任何一个样本都满足正太分布。

四、空间分析方法

要想得到疾病发病的空间变化的趋势,来预测疾病在各个区域未来的发病率,就需要把空间技术与疾病发病率预测结合起来。早在1854年就有英国学者把地理信息应用到疾病发病率预测当中。

(一)广义线性模型和广义线性混合模型

广义线性模型是由Kleinman提出来的,其可以有效的对局部区域中每个病例进行有效的地理定位。其简称为SMART分值法。核心思想是把局部区域中的每一个小区域看作一个小的个体,通过随机效应来分析小区域中的重复数据。这个方法容纳长期趋势、季节性和时间聚集性,可以校正区域人群中的不同特征。

(二)Rogerson空间累计和法

这个方法是把空间统计量加入到累积和法上面形成的,进而应用到疾病发病率的空间分析。采用Rogerson空间累计和法能够有效的计算预期值。当用这个模型对数值进行预测时,如果出现误差,原因应该是模型的误差而不是疾病发病率的变化。

五、其他方法

(一)马尔可夫链法

这个方法是研究随机事件的变化趋势。核心思想是把疾病发病率看作一个随机过程,通过分析疾病发病率的初始状态来预测未来的发病率,由于每次疾病的发生是随机的,从而从这一次疾病到下一次疾病的发生是一定概率的转移,因而下次疾病的发生仅仅与上一次疾病的发生有关而与之前的其他因素没有任何关系。

(二)判别分析

判别分析是对样本进行分类,根据研究对象表现出来的特征值进行判别的多元统计分析方法。根据相应的判别准则,建立判别函数,用疾病发病率数据来确定这些函数中的待定系数,最后计算相应的判别指标,来进行判别分析。

参考文献:

[1]戚晓鹏,吕繁,何武.地理信息系统在流行病学中的应用及开发[J].中华流行病学杂志,2004,25(11):997-999

[2]刘巧兰,李晓松,冯子健,等.Rogerson 空间模式监测方法在传染病实时监测中的应用.中华流行病学杂志[J].2007,28(11):1133-1137

[3]严薇荣.传染病预警指标体系及三种预测模型的研究[D].华中科技大学博士学位论文,2008

[4]冯丹,韩晓娜,赵文娟等.中国内地法定报告传染病预测和监测的ARIMA模型[J].疾病控制杂志,2007,11(2):140-142

上一篇:试论改革开放以来中国高校人才培养与劳动力市... 下一篇:新时期医院财务管理与风险控制分析