决策树算法在病例组合费用测算中的应用研究

时间:2022-06-24 03:08:23

决策树算法在病例组合费用测算中的应用研究

摘要:本文以宁波地区某三甲及某骨科专科医院2010年1月1日~2011年12月30日费用及病案信息数据为基础,利用SPSS18.0对数据进行分析腰椎间盘脱出疾病的费用影响因素进行分析,并以费用为目标变量,运用决策树CHAID算法对此疾病进行病例组合费用测算。结果表明,基于CHAID的病例组合费用合理有效,6个组合病例组费用组合内有同质性,而组间有异质性。测算的标准费用为用实际费用的90.2%。为进一步完善病例组合,必须与临床路径相配套,进一步原始数据的采集与质量,从而为医疗机构以及政府部门开展按病种医疗费用支付方式提供参考。

关键词:CHAID;病例组合

随着社会经济和医学技术的发展,人口老龄化问题的加剧,以及疾病谱和死因谱的改变,人民对医疗卫生服务需求在不断提高,医疗费用的过快增长已经成为政府面临的严重问题。近年来我国GDP一直保持9.8%的年平均增长率,但卫生总费用却以17.1%的年平均增长率持续增长。人均医疗费用的增长幅度远远大于人均收入增长幅度,国民医疗负担沉重。合理控制医疗费用己成为我国医疗卫生体制改革面临的重点和难点问题。国外社会医疗保险的实践经验已经充分证明,按病例组合医疗费用支付方式对于医疗服务供方的医疗行为以及医疗费用的控制会产生明显的导向作用。相对于其他方式,它既能保证医学高新技术的发展,持续促进医疗服务质量、提高医疗工作效率,又能控制医疗成本、降低医疗费用。本次研究试图对在宁波地区较有代表性的某三甲医院及骨科专科医院腰椎间盘脱出疾病的费用影响因素进行分析,并以费用为目标变量,运用决策树CHAID算法对此疾病进行病例组合分类,并确定分组结果合理性,探讨方法适用性,为医疗机构以及政府部门开展按病种医疗费用支付方式提供参考。

1资料与方法

1.1一般资料 以浙江省宁波市某三甲医院及骨科专科作为调查对象,两家医院骨骼系统疾病技术力量较强,具有一定的区域代表性。在具体研究对象的选择上,主要选取2010~2011年间2院代表性较强、住院人次较多、诊断明确、治疗有效、易于分析且具有一定费用下降空间的腰椎间盘突出(ICD-10编码)疾病出院病例。在内容上则以病案首页信息为依据,摘录每例病例的住院总费用、实际住院天数、是否手术、医疗保险支付方式以及相关人口学信息。

1.2方法

1.2.1决策树CHAID算法基本概念 决策树算法是通过一系列if-then的逻辑分支关系,形成一套分层规则,将所有可能发生的结局概率分布用树形表达。其包括决策节点、机会结点和结局结点。从决策结点引出一些射线,表示不同的备选方案。从机会结点引出的射线表示该结点可能发生的各种随机事件。CHAID算法核心思想是更具给定的反应变量以及经过筛选的解释变量对样本进行最优分割,按照方差检验的显著性进行多元列联表的自动判断分组。由于医疗费用为典型的偏态分布资料,运用CHAID可以很好的解决分析方法的适用性问题。

1.2.2 CHAID决策树分裂生长过程

1.2.2.1定义1 设信息源X的符号取值集合为A={a1,a2,…,an},其中ai∈A出现的概率为pi=P[X=ai],称I(ai)=-logPi为ai的信息量。信息量的数学期望值为信息熵,记为H(X),有H(X)=-■PilogPi决策树分类利用信息量增加作为特征选择的指标。信息增益衡量每个属性对分裂后子集的信息量贡献。

1.2.2.2定义2 设集T包含n个样本,这些样本又分别属于m个类,其中第i个类在T中出现的比例为Pi,那么信息熵为I(T)=-■-PilogPi

假设属性A把集合T划分成V个子集{T1,T2,…,Tv},其中Ti所包含的样本数为ni,那么划分后的熵就是E(A)=■■I(Ti),分裂后的信息熵为Gain(A)=I(T)-E(A)。

逐一计算每种属性变量的信息熵,选择信息量最大的属性为分裂属性变量,完成决策树分类过程。当分裂属性为分类变量时,直接生成相关子结点。当为连续变量时,首先根据该分裂属性对此结点数据集进行聚类分析,分成几个不同的类,划分成几个相连的区间。

为了使模型达到简约而精准的效果,根据树的生成层数、分裂聚合阈值、结点占样本比例设定父结点最少为100条,子结点为50条。

1.3研究步骤与统计分析 利用多重线性回归模型对影响出院病例住院费用的显著性因素进行筛选,确定分类结点。以住院费用为组合核心,利用CHAID算法确定病例组合方案。计算个组合的住院费用的均数、中位数以及CV(变异系数)值,并计算各层中的方差统计量。

1.4统计学分析 在统计时用采用Excel2007进行前期数据清理与洗脱,用带有决策树模块的SPSS18.0对数据进行统计分析。

2费用影响因素的筛选及病例组合费用测算

2.1住院费用的影响因素筛选 医疗费用以2011年费用为基年,前年限费用均为经CPI调整后的费用。由于费用并未服从正态分布,故对其进行 转换。以费用对数值作为因变量(Y),将性别(回归方程中简写为S)、年龄(A)、医疗保险方式(S)、是否手术(O)、住院天数(D)作为自变量,按α=0.05的水平,对住院费用的影响因素进行整体(ENTER)多重逐步回归,其中年龄、住院天数为连续型变量,性别为两分类变量,医疗保险方式以哑变量形式形式纳入。模型总体F=378.56, R2=0.77,拟合程度较高,且可以解释总体上77.0%的变异情况。各自变量的方差膨胀因子(VIF)均

2.2基于CHAID的病例组合费用测算 有研究显示,高额医疗费用会加大费用的离散程度,从而影响到病例组合费用的中位数,故本次研究选取去除上四分位数+四分位数间距(P75与P25之差的1.5倍)高额费用后的总费用共2286条作为目标变量。根据住院费用影响因素分析结果选取分组变量,本研究选取了是否手术、住院天数、年龄3个变量作为分类变量,最后得到6个组合病例。病例分布比较均匀,构成在9.5%~24.5%。各分组费用CV

病例组合的标准费用为各组中位数乘以组内人数。经过病例组合后的标准费用占总费用用的比例在57.3%~98.4%,合计标准费用为用实际费用的90.2%。如果实行基于CHAID的病例组合收费,2010~2011年2年间2家医院仅需消耗实际费用的90.2%。按病种收费有助于医疗费用的控制,见表3。

3讨论与建议

3.1基于CHAID的病例组合费用合理有效,与临床路径相配套有助于控制日益上涨的医疗费用影响病例组合分类的因素较多,且之间存在着复杂的交互作用,影响因素之间的关系亦可能是非线性的。而决策树CHDIA算法的优势就在于处理非线性、变量间具有交互作用以及存在缺失值等数据。它能够较为直观的显示分析的过程与结果,且易于解释。在去除线外费用后,对宁波两家医院腰椎间盘脱出疾病的病例组合结果显示,6个组中变异系数均较小,且组间费用具有统计学差异,组内同质性与组间异质性都得到了体现。分类效果较好。通过对标准费用的测算,6组的标准费用均不同程度低于实际发生费用,病例组合收费对费用的控制效果得到了一定程度上的实证。实际中这种打包付费方式可能导致医院减少必要的服务,导致医疗服务质量下降。国外实行DRGs管理的操作经验来看,实行这项制度需要配套实施临床路径管理体系。因此,实行病例组合付费制度需配套实施临床路径管理体系,在保证医疗质量的同时控制日益上涨的医疗费用。

3.2病例组合需要进一步提高病案质量,加强编码员培训,保证原始数据的采集与质量。事实上,美国的DRGs主要采用了主要诊断、次要诊断、主要手术、伴随病、年龄、新生儿体重、昏迷时间及是否死亡作为分类结点。本次研究我们发现部分出院病历首页信息存在逻辑错误及关键字段缺失等问题,损失了宝贵的样本信息。由于疾病、手术编目的不准确以及针刺诊断的混乱,我们仅选取诊断简单明确的疾病且仅纳入了手术情况、住院天数以及年龄因素作为费用的分组变量,病例组合的分组较为粗糙。为了进一步的完善病例组合分组,我们需要进一步完善住院病例首页信息,持续提高病案书写质量,保证资料的完整性、真实性及客观性。同时,编码员的素质亦是保证疾病分类准确的关键。我们还需要加强编码员的培训,保证疾病诊断ICD-10及手术ICD-9-CM编目的准确性。

3.3病例组合有助于医院医疗产出的测量改进 目前医院依旧以传统医疗指标作为计算医疗产出量的核算基础,对床日及门诊人次的医疗成本进行核算。这种核算方式具有较大的缺陷,无法区分不同机构及科室收治患者构成不同所导致的差异。医疗成本与医生的医疗决策具有很大的相关性。科学的核算需要先计算病例组合分类后个组别的病例数量,然后再计算不同组合里的医疗消耗。本次研究发现,经过病例组合调整后,不同组别的费用是可以区分的,即患者产生的医疗消耗与患者的病情及相关状况密切相关。这位消除给机构治患者病情不同等因素所导致的差异,统一医疗产出的测量提供了可能。

参考文献:

[1]关志强,董朝晖.病例组合方法确定乙肝患者住院费用的研究[J].中国卫生济,2004,12:432.

[2]马鸣,刘运国,陈埙吹.新型农村合作医疗中单病种定额付费的病种选择[J].中国卫生经济,2007,26(7):31.

[3]何凡,沈毅,叶众.CHAID方法在居民卫生服务需求研究中的应用[J].数理统计与管,2006,25(4):484-490.

[4]陈波.CHAID和贝叶斯网络模型在肝胆系统和胰腺疾病DGRs归组及线外病例预测中的应用研究[D].四川大学博士论文,2011.

上一篇:气囊尿管在肝性脑病患者保留灌肠中的应用研究 下一篇:耳穴压豆配合艾灸对维持性血液透析患者焦虑的...