缺失数据处理在试验设计中的应用

时间:2022-10-23 12:06:44

缺失数据处理在试验设计中的应用

摘要:数据缺失在社会经济研究、抽样调查、生物医药研究等诸多领域普遍存在,因而缺失数据的处理一直是国际统计学界热点讨论的课题之一。本文以哮喘临床试验为例构建缺失模型对缺失数据进行处理。通过介绍三种缺失机制,根据哮喘临床试验中真实情况模拟产生数据,在此基础上构建MAR模型,借助WinBUGS和R软件通过贝叶斯方法对模型中的参数进行估计。结果表明,在哮喘临床试验中基于缺失模型的方法对结论的敏感性分析效果显著。

Abstract: Missing data is a main problem in many fields such as socio-economic research, sample surveys and the field of biomedical research and many other common. Therefore, coping with missing data has been an increasing important issue in the discussion of international statistic. In this paper, we built a model for coping with the missing data from a asthma clinical trials. We introduced three kinds of missing mechanisms to analyze the character of missing data in different missing mechanism. The data in this paper were generated from real situation simulation with R ,based on which MAR model were built. The results show that, in asthma clinical trials, the method we use is more preferable to assess the sensitivity of the conclusions.

关键词: 缺失数据;缺失模型;WinBUGS;临床试验

Key words: missing data;missing modle;WinBUGS;clinical trial

中图分类号:C81 文献标识码:A 文章编号:1006-4311(2015)31-0187-03

0 引言

数据挖掘在社会经济研究、抽样调查、生物医药研究等诸多领域得到广泛应用,然而数据缺失现象也相伴而生。数据的缺失不仅影响了数据的质量,也可能造成统计分析结果的严重偏差。因此,对缺失数据的合理处理是一个非常重要的问题,是数据预处理的重要环节,也是提高数据质量、预测模型准确率和降低估计误差的重要方法之一。

在新药临床试验设计中,经常会由于试验设计不合适或者在试验进行中出现故障等原因造成部分试验数据未被记录到,即会出现数据缺失的现象。一般而言,对于缺失的数据通常的解决方法是调整系统并重新进行试验以便将缺失的数据补齐。但在实际中,由于试验周期要求、试验成本的限制、试验对象的唯一性或者无法进行重新的补充调查等原因使得试验不可重复。因此通过已有数据所提供的信息,科学地处理缺失数据对临床试验设计具有重要意义。

1 变量说明及数据缺失机制

1.1 数据及变量说明

本文设计五组哮喘临床试验来评估布地奈德(budesonide)的有效性和安全性。五组分别为安慰机组以及分别注入200mcg、400mcg、800mcg和1600mcg的布地奈德的治疗组。将有患有慢性哮喘的446名的病人,按照随机双盲多中心平行试验的方法进行设计,对患者12周的情况进行记录。考虑到数据的保密性,本文所采用的数据根据哮喘临床试验真实背景模拟产生。对于布地奈德的疗效评估,通常用下面两个变量来衡量:即1秒钟呼出的气体的容积FEV1和呼气峰流速PEF。本文主要用FEV1的变化率评估布地奈德的疗效。对于某一患者,FEV1的重要变化依赖于他(她)的FEV1的预计值。FEV1的预计值可以由一个人的体重、年龄和性别等来估计得出。对哮喘者病情的判断采用就诊时FEV1占预计值的百分比进行。本文将FEV1和基线的比较得到的变化作为FEV1的预计值百分比来看作是响应,记为FEV1占预计值的百分比。

假设有i∈1,…,N个病人随机的进入试验,每个病人在时间tij,j∈1,…,J可以测得其响应,令ti1=0。第i个个体在时间tij基于基线的主要响应记为yij,因此有yi1=0,列向量yi=(yi1,…,yiJ)T记为第i 个个体的主要响应的完全集。更进一步,列向量xi记为第i个个体的协变量(辅助变量),则第i个个体的数据可以用(yi,xi)表示。本文的哮喘试验,yij记为FEV1占预计值百分比的变化量,xi记为由例如年龄、性别、血压和哮喘可逆性程度等读出的基准值。

当存在数据缺失时,定义一个缺失数据指示阵Mij,如果第i个个体的第j个观测值缺失则Mij=1,否则Mij=0。同时,本文假设一旦一个个体退出(缺失)则不会再返回,因此向量Mi=(Mi1,Mi2,…,MiJ)由一些列的0和1组成。一个病人的完全信息可以看作是包括观测部分和未观测部分(缺失部分),为了区分可观测的和缺失的信息,本文用obs和miss这两个上标来标注。因此一个个体的完全数据(yi,xi)可以写作(yiobs,yimiss,Mi,xi),其中向量(yiobs,yimiss)的长度是J。

1.2 缺失数据机制

假设将参数空间分成两个子集θ和?准。令P(y,M;θ,?准,x)表示数据的联合似然概率,是在给定的协变量基线下,参数向量的一个特别值。则由对变量的说明有:

P(y,M;θ,?准,x)=P(yobs,ymiss,M;θ,?准,x)(1)

因为这个似然概率依赖于缺失的数据,则在一般的方式下达不到最大值。解决这个问题的一个方法是计算(1)的联合分布,(yobs,M)的分布可由下面的积分给出:

P(yobs,M;θ,?准,x)=P(yobs,ymiss,M;θ,?准,x)dymiss (2)

我们单独的考虑第i个个体的似然概率,因为每一个个体都看作是独立的,则可以把积分的第i个成分的联合密度写成如下:

P(yiobs,yimiss,Mi;θ,?准,xi)=P(Mi│yiobs,yimiss;?准,xi)P(yiobs,yimiss;θ,xi) (3)

对于(3)式,由P(Mi│yiobs,yimiss;?准,xi)来刻划缺失机制,有3种缺失机制分别为:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)。

2 构建缺失模型(MAR模型)

上述研究表明病人在试验中退出的原因非常重要,如果所有退出病人的响应值都可以通过预测得到,那么就可以在模型中使用这些预测得到的响应值,使缺失数据集成为一个“完全数据集”从而来分析试验结果。本文通过构建缺失模型探研对缺失数据处理。

首先用图表的方法描述缺失机制,如图1所示。

图1描述了在哮喘研究中不同治疗组研究情况,病人参与和未参与下次就诊基于基期FEV预测值百分比变化量均值及其2倍标准差范围变化情况。盲目组初始病人87人、200mcg为90人、400mcg为89人、800和1600mcg为178人,400mcg计量的试验组中,2周时只有2人缺失,由于800mcg与1600mcg出现的情况非常相近,因此将二者结合。图1表示了缺失率随时间变化以及在不同试验组的缺失率。同时退出试验患者的FEV1预测值的百分比高于继续参与下次就诊病人的值,因而说明缺失值不是完全缺失。

2.1 时间轴转换

在MAR模型中,选取预测FEV1基于基期变化百分比这一变量,即Yij,该变量由观测的FEV1计算所得,且变量Yij服从多元正态分布。用WinBUGS软件对模型参数进行估计,在估计过程中,利用模糊先验值有助于更精确地估计参数值。

图2(a)表示各治疗组预测FEV1基于基期变化百分比的均值。该图显示,前四周试验中,均值的变化较大,之后逐渐趋于稳定,因而线性模型与指数模型都不能很好地进行模型拟合,所以本文先采用转换时间轴的方法,使得数据在时间轴上呈现出线性特征,这样可以更好拟合模型。

图2(b)给出了经过转换后各治疗组预测FEV1基于基期变化百分比的均值,这样可以估计出随着时间推移,Yij的均值的稳定值。即t∞时,其均值为固定斜率的η倍。采用极大似然估计,对τ、η两参数进行估计,在95%的置信区间下,(τ,η)的估计值为(0.98,1.01)。因此,本文近似取τ=η=1。

2.2 MAR模型构建

在MAR模型中,Yij~N(μij,σ2) μij=βslope,itij βslope,i~N(μslope,i,σ2slope)

μslope,i=βlxl,x (4)

tij:经过转换后的时间;βslope,i:第i个病人Yij斜率;

在估计参数之前,β的先验信息为:β~N(0,100000),且已知:τ=,τslope=。同时,x服从gamma分布,即f(x;r,μ)=,其中μ=r=0.001。

2.3 模型检验

运用WinBUGS软件来完成此模型检验过程。在初始阶段,从联合分布中抽取样本数为5000的样本,后来在稳定阶段又抽取样本数为10000的样本,结果显示通过稳定性检验,在95%置信水平、滞后50阶条件下计算样本相关系数。得相关系数的伴随概率(0.0001)小于0.05。即通过了稳定性检验。

2.4 结果分析

用winbugs软件对参数进行估计,结果见图3。

图3给出了在各种情况下盲目组与200mcg布地奈德实验组得观测数据的均值(合适的地方进行插补)。试验中随着治疗时间的增加,病人退出试验的情况逐渐减少。

从图中我们可以得到如下结论:

①完全数据(包括观测数据和缺失数据)的期望高于全部观测数据的期望,因此说明,试验设计中的缺失数据机制是非完全随机缺失机制。

②在初始阶段,随机缺失模型估计的结果近似于全部观测值结果,而在试验后期阶段,其结果稍低于全部观测值。但是随机模型估计的结果高于最后一次观测值。即如果缺失属于随机缺失,运用最后一次观测值来估计模型结果会出现偏差。

3 结论及不足

在临床试验中,很多患者由于各种原因不能完成全部试验,因此,就需要清楚了解整个试验过程。本文通过构建模型来处理缺失数据的方法与用纵向研究数据的方法相近。基于模型对缺失数据的处理,是一种在不同缺失机制下对缺失结果敏感性估计的较好方法,与采用最后的观测值来预期缺失值的方法相比效果更好些。但考虑到数据的可得性和方法的适用性,本文只考虑了连续型缺失数据的情况,而通过构建模型对缺失数据的填补还可以推广到离散型情况。但在实际中很难选择合适的模型来解决不同缺失机制下缺失数据的问题。当缺失数据与一个弱响应的关系密切时,应当采用本文中提供的模型结构来研究观测值和缺失数据。当要考虑全部信息是就要运用缺失数据信息,即如果模型的响应与缺失数据有关时,应当选择混合模型。

参考文献:

[1]Little RJA, Rubin DB. Statistical Analysis with Missing Data[M]・New York: Wiley and Sons, Inc. 1987.

[2]Nordheim EV. Inference from nonrandomly missing data: An example from a genetic study on Turner’s Syndrome [J]・Am Statist Assoc, 1984, 79: 772-780.

[3]Little R J A and Rubin D B. Statistical Analysis with Missing Date. [M]. John Wiley and Sons,2002. 孙山泽译.缺失数据统计分析.中国统计出版社,2004:1-15,173-183.

[4]乔丽华,傅德印.缺失数据的多重插补方法[J].统计教育 2002,12.

[5]张念先.临床试验常用缺失数据处理方法的局限性分析[J].中国新药与临床杂志,2009,9.

上一篇:空压机控制系统的优化与改造 下一篇:耳穴埋籽联合辩证施护在中风失眠患者中的应用