脂肪肝中医证候分类研究中多元统计方法的应用

时间:2022-08-29 06:28:58

脂肪肝中医证候分类研究中多元统计方法的应用

摘 要:目的:为如何选用多元统计方法用于中医证候分类研究提供参考。方法:通过2次因子分析提取脂肪肝的基本证型,利用因子得分揭示基本证型的组合规律,结合聚类分析归纳出脂肪肝常见的复合证型。结果:脂肪肝的基本证型为肝肾不足、阴虚火旺、肝郁脾虚、脾虚、脾虚湿阻、湿热内蕴、血瘀、痰湿内阻;基本证型组合形式以1~4个多见,病机较简单时,脾虚湿阻型最常见,病机较复杂时,肝肾不足型最常见;有13.6%的患者表现为无症状型,5.8%的患者表现为不可分类型,其余患者被聚为五型,分别为脾虚痰瘀互结11.5%、肝肾阴虚18.5%、脾虚痰湿中阻32.0%、脾虚湿热内蕴10.2%和肝郁脾虚湿阻8.3%。结论:将因子分析和聚类分析等多种多元统计方法合理地结合应用,能对中医证候进行比较客观地分类

关键词:多元统计;证候分类;脂肪肝

中图分类号:R259.755 文献标识码:A 文章编号:1673-7717(2010)01-0065-05

Using the Methods of Multivariate Statistical Analysis

to Study the syndrome Categorization of TCM

WEI HuaFeng,LIU Tao,WANG Miao,XING LianJun,ZHENG PeiYong,JI Guang

(Institute of Digestive Diseases,Longhua Hospital,Shanghai University of Traditional Chinese Medicine,Shanghai 200032,China)

Abstract:Objective: To do references for reasonably use the methods of multivariate statistical analysis to study the syndrome categorization of TCM.Methods:To extract the basic syndrome patterns of fatty liver with the method of twice factor analysis. To display the combination rule of the basic syndrome patterns with the method of factors score. To conclude the main syndrome patterns combined with the method of cluster analysis.Results:Insufficiency of liver and kidney, asthenic yin causing excessive pyrexia, liver-qi stagnation and spleen asthenia, splenic asthenia, splenic asthenia and dampness stagnation, interior accumulation of dampness-heat, blood stasis, interior stagnation of phlegm-dampness are the basic syndrome patterns of fatty liver. One to four basic syndrome patterns combined is common for fatty liver, the syndrome pattern of splenic asthenia and dampness stagnation is most frequent when its pathogenesis is simple, and the syndrome pattern of insufficiency of liver and kidney is most frequent when is complicated. 13.6%patients of the pattern of mild symptom and 5.8% patients belong to the pattern of non-categorization, other patients are divided into five groups: the pattern of splenic asthenia and coagulatetion of phlegm and stagnated blood 11.5%, yin asthenia of liver and kidney18.5%, splenic asthenia and retention of phlegmatic dampness 32.0%, splenic asthenia and interior accumulation of dampness-heat10.2%, liver-qi stagnation and spleen asthenia with dampness stasis 8.3%.Conclusion: Reasonably combined the methods of several multivariate statistical analyses, which are factor analysis, cluster analysis and so on, objective categories of TCM syndrome could be carry out.

Key words:multivariate statistical analysis; TCM syndrome categorization;fatty liver

多元统计方法是数理统计学中迅速发展起来的一个分支,是定量分析事物间复杂关系的一种综合的统计方法。它的基本思想是将高维数据投影到低维空间,找出能反映原来高维数据结构或特征的投影,从而达到研究、分析高维数据的目的。近年来多元统计方法已被广泛用于中医证候研究,在中医证候诊断与鉴别诊断方面日益体现出它的重要的应用价值。

中医证候分类研究是一项复杂而艰难的工作。由于中医证候属于一个高维高阶的复杂巨系统,其内部存在大量的多重共线性、非线性及协同关系,并且,这些关系随着时间的推移发生不断的变化,所以,尽管多元统计方法可用于探讨高维数据的内部规律,但这些多元统计方法(如聚类分析、因子分析、主成分分析、判别分析、相关分析、回归分析等)在单独应用于证候分类时,都会因为方法本身的局限性而暴露出诸多不能克服的问题,因此,笔者需要根据研究目的,密切结合中医理论和临床实际情况,合理地将两种或多种多元统计方法联合运用,以取长补短,提高分析结果的可靠性和实用性,在促进证候诊断规范化的同时又保留中医辩证的特色。本文以脂肪肝中医证候分类研究为例,分析多元统计方法的联合应用情况。

1 资料与方法

1.1临床资料

1.1.1研究对象2003年1月-2006年12月在上海龙华医院、上海市第一人民医院、安徽东至县中医院消化内科和肝科门诊收集的脂肪肝病人。纳入本次研究的患者共793例,其中龙华医院358例,上海市第一人民医院333例,东至县中医院102例。最小年龄8岁,最大年龄87岁,平均年龄(50.7±14.0)岁。男507例,女286例,男女比例为1.77∶1。

1.1.2诊断标准诊断标准参照中华医学会肝脏病分会脂肪肝和酒精性肝病组2002年拟定的脂肪性肝病诊断标准[1]拟定。

1.1.3纳入标准符合诊断标准,愿意配合调查,完成主要观察指标。

1.1.4排除标准合并病毒性肝炎、药物性肝炎、自身免疫性肝病等肝脏疾病或消化道恶性肿瘤,未完成主要观察指标。

1.2研究方法

1.2.1 样本含量的估算按多因素分析的样本含量一般是变量数的5~10倍左右[2],本研究经过数据处理后参与统计分析的证候变量为61项,需纳入病例约610例。

1.2.2调查表的设计根据前期文献调研结果,参考《中医内科学》、《中医诊断学》等专业教材书籍后制定调查项目,包括一般项目、中医证候变量(症状、体征和舌象)。

1.3数据管理及统计学方法

采用EpiData 3.1软件建立数据录入平台,采用双人录入数据的方法建立数据库。采用SPSS 13.0软件对证候变量进行两次因子分析和聚类分析。

2结果

2.1证候变量的频数分布

2.1.1频数>1%的证候变量倦怠乏力62.67%、烦躁易怒46.28%、眩晕44.26%、口咽干燥42.12%、面红41.11%、脘腹痞闷40.23%、视物模糊39.97%、腹胀36.82%、健忘34.05%、头痛34.05%、腰膝酸软34.05%、耳鸣耳聋32.41%、盗汗25.60%、抑郁叹息25.47%、嗳气25.09%、胁肋胀痛24.34%、口苦19.67%、吞酸17.91%、易惊善恐17.65%、目干涩17.53%、牙龈出血16.90%、纳差14.12%、恶心呕吐14.63%、胁肋隐痛13.75%、口臭13.49%、足跟痛12.48%、咯吐痰涎11.98%、痛处固定11.48%、腹痛9.84%、目赤肿痛9.84%、口淡9.21%、形体消瘦8.08%、痛无定处7.44%、便溏7.19%、便秘6.81%、厌油6.81%、口黏5.93%、小便频数3.66%、小便黄2.90%、身目发黄2.90%、面色萎黄2.65%、午后低热2.14%、口甜1.51%、口咸1.13%、面色少华1.01%。

2.1.2舌象变量频数分布舌质:淡红41.87%、红30.14%、黯紫16.90%、红绛3.66%、瘀点或瘀斑2.65%、淡白1.89%;舌苔:薄白31.65%、黄腻28.25%、白腻27.87%、薄黄6.18%;舌津:少津38.59%;舌觉:麻2.40%、胖嫩14.50%、齿痕9.08%、芒刺0.76%;舌下脉:青紫/怒张/扭曲/瘀斑19.80%。

2.2初次因子分析

因子分析要求大于2个以上的症状才可以通过correlation matrix来计算相关系数,考虑证候总积分等于1时患者症状非常轻微,接近于无明显不适,所以,将证候总积分≤1的108例患者(占患者总数的13.6%)直接归为无症状型,不参与多元统计分析。剩余685例患者经KMO and Bartlett’s检验R=0.81(P1.0的公因子共14个,累积贡献率为65.9%。

结合专业知识判断,取每个公因子中载荷>0.4的症状作为主症时,能对大多数公因子进行比较合理地解释见表1。分析结果发现公因子1~8和12有比较明确的证型归类,而公因子9~11和13~14作为独立的公因子,难以进行简单的证型归类,而且,对累积贡献率的贡献很小见图1,根据证候信息降噪处理原则去除这些次要公因子中的主症(其中舌苔少同时为主要公因子中的主症,故不予剔除),然后再次进行因子分析。

2.3再次因子分析

再次因子分析KMO and Bartlett’s检验R=0.83,P1.0的因子共为10个,累积贡献率为63.7%。

再次因子分析并经方差最大正交旋转后,各公因子的主症及载荷分别如下:公因子1:视物模糊0.78、目干涩0.76、腰膝酸软0.73、足跟痛0.73、健忘0.72、易惊善恐0.62、小便频数0.59、面红0.57、面色少华0.54、苔少0.52、厌油0.43,具有肝肾不足的证候特征。公因子2:骨蒸潮热0.85、午后低热0.74、舌体瘦薄0.67、苔少0.60、盗汗0.58、面色少华0.53、胁肋隐痛0.42,具有阴虚火旺型的证候特征。公因子3:嗳气0.89、吞酸0.87、抑郁太息0.70、痛无定处0.66、便溏0.44,具有肝郁脾虚型的证候特征。公因子4:舌边齿痕0.87、舌胖嫩0.84、面色萎黄0.74、脘腹痞闷0.48、倦怠乏力0.46、便溏0.44,具有脾虚型证候特征。公因子5:纳差0.71、恶心呕吐0.64、腹胀0.62、脘腹痞闷0.57、胁肋胀痛0.55、倦怠乏力0.52、苔薄白腻0.42,具有脾虚湿阻型证候特征。公因子6:目赤肿痛0.89、口臭0.79、舌生芒刺0.77、苔薄黄腻0.51、小便频数0.40、舌津少0.40,具有湿热内蕴型的证候特征。公因子7:痛处固定0.91、腹痛0.88、舌瘀斑点0.87、苔黄腻0.56,具有血瘀型的证候特征。公因子8:身目发黄0.87、小便黄0.80、便秘0.74、苔薄黄腻0.45,具有湿热内蕴型(与公因子6的主症不同,对累积贡献率的贡献也不同)的证候特征。公因子9:咯吐痰涎0.82、苔薄白腻0.50,具有痰湿内盛型的证候特征。公因子10:耳鸣耳聋0.68,根据其单一的主症难以进行证型归类。

值得提出的是通过上述分析后提取出来的基本证型中存在证候归类重叠的现象,但各自的主症并不相同,它们是从不同的角度来揭示证型的特点,这现象符合临床实际情况。

2.4 基本证型组合规律分析

进行因子分析时SPSS软件能计算出每例患者在这10个公因子上的得分。为凸现因子组合规律和简化计算,在不影响研究结果的前提下,将患者的公因子得分转换成等级变量:X

参加二次因子分析的患者有685例,其中46例患者其10个公因子得分皆为0,即不能用这10个公因子来解释,提示该类患者临床表现比较分散没有明显规律,所以,将这一类患者归为不可分类型,不参与基本证型组合规律研究。因第10个公因子无法明确对应于一个证型,故仅第10个公因子得分的8例患者也不参与基本证型组合规律研究。

公因子1:肝肾不足型,公因子2:阴虚火旺型,公因子3:肝郁脾虚型,公因子4:脾虚型,公因子5:脾虚湿阻型,公因子6:湿热内蕴型,公因子7:血瘀型,公因子8:湿热内蕴型,公因子9:痰湿内盛型。

脂肪肝患者以公因子1肝肾不足和公因子5脾虚湿阻型最多见,公因子4脾虚型最少见。公因子组合以1~4个常见。1~2个公因子组合时,患者病机较简单,此时以脾虚湿阻型最常见;在3~4个公因子组合时,患者病机较复杂,此时以肝肾不足型最常见;在5~6个公因子组合时,患者病机更为复杂,此时脾虚、脾虚湿阻、湿热内蕴、痰湿内盛型较少见。

2.5聚类分析

对参加第二次因子分析的639例患者(除外不可分类型46例)的10个公因子得分进行聚类分析,归纳出了脂肪肝的5种常见的复合证型。笔者尝试性地将其聚为3~7类,结果发现聚为5类时最符合临床实际,其中第1~5类的患者人数分别为91、147、254、81和66例。

根据专业知识判断,取类别中心距离大于0.65的公因子作为主要公因子对每一类进行解释时比较合理。第一类的主要公因子及类别中心距离为:第5公因子脾虚湿阻型0.70、第7公因子血瘀型2.25、第9公因子痰湿内盛型0.69。第二类的主要公因子及类别中心距离为:第1公因子肝肾不足型1.07、第2公因子阴虚火旺型0.77、第10公因子耳鸣耳聋1.39。第四类的主要公因子及类别中心距离为:第4公因子脾虚型0.83、第5公因子脾虚湿阻型1.94、第6公因子湿热内蕴型0.69、第9公因子痰湿内盛型0.78。第五类的主要公因子及类别中心距离为:第3公因子肝郁脾虚型2.32、第5公因子脾虚湿阻型0.73。其中第三类按上述载荷标准所有公因子载荷均小于0.65,为凸现其证候特点,将主要公因子的载荷降低至0.45时,第4、9公因子(脾虚型0.46、痰湿内盛型0.47)为其主要公因子,该现象说明了第三类患者的证型典型性相对差,证候特点不明显。

最后综合每一类的主要公因子组成及每一类的证候频数分布情况,将第1~5类分别命名为脾虚痰瘀互结型、肝肾阴虚型、脾虚痰湿中阻型、脾虚湿热内蕴型、肝郁脾虚湿阻型。以上5型占调查总人数的80.6%(639/793),分别占11.5%(91/793)、18.5%(147/793)、32.0%(254/793)、10.2%(81/793)和8.3%(66/793),具有较好的代表性,是脂肪肝的主要复合证型。

3 讨 论

3.1 中医证候分类的研究思路

从理论上而言,中医证候是由不同的证素(维),在疾病不同的阶段,通过不同形式和强度的关联(阶),形成一个动态的复杂巨系统。虽然中医证候系统繁杂多变,但证素的数量是有限的,因此,证候的分类研究可以通过降维和升阶这两个环节来实现。所谓“降维”就是把复杂的证候系统分解成较为简单的证素,明确一个疾病包括了几个证素,每个证素的证候特征是什么。所谓“升阶”就是进行应证组合,即通过证素之间的不同组合,建立多维多阶的证型。这种新的辨证方法体系既能把握证候的共性特征,又能体现辨证的灵活性。

但是通过本次研究发现,对于一个具体的疾病而言,由于部分证候指标之间相关性很强,并不一定能完全实现证素(最基本的诊断单元)的提取,本研究是通过提取疾病的基本证型,分析基本证型的证候特点及组合规律来实现证候的降维和升阶的。在这里基本证型可以被理解为是介于证素和复合证型之间的研究单元,是临床实际情况中不能再被分割的证候诊断单位。

3.2 中医证候分类中多元统计方法的联合应用

因子分析是通过寻求少数的几个变量(公因子)来综合反映全部变量的大部分信息,每个公因子可以用因子得分的形式具体表现出来,并参与进一步的证候分析。聚类分析则是对随机现象进行归类分析,使类内相似度尽可能大、类间相似度尽可能小。这两种统计方法都可以实现证候的降维,有利于发现各类证候的组合及变化规律,有利于提取各类证候中的主、次症等等。

早期笔者在研究脂肪肝的中医证候分类时,曾尝试先进行聚类分析。聚类分析分为指标聚类和样品聚类,由于指标聚类方法只能将一个指标归在一个类别中,这与临床实际情况并不相符,所以笔者选用了样品聚类法,即根据患者的证候指标组合的特点将患者进行聚类分析,再对每一类的证候指标进行因子分析,揭示出每一类的证候构成特点(主次症情况),从而对每一类证候特点作出合理的解释。但在统计过程中我们发现,按这样的统计分析思路联合应用聚类分析和因子分析并不能对脂肪肝的中医证候实现降维和升阶处理。而且,由于事先未对证候指标进行合理地删选,增加了分类结果的解释难度,最终只能归纳出脂肪肝的常见证型及其分布规律。所以,笔者在统计思路方面又作了以下调整。

笔者改为先对中医证候指标进行因子分析,通过因子分析用较少数量的公因子代替原来较多的证候指标。每个公因子代表了1个证候群,该证候群可以被理解为是脂肪肝的基本证型。由于考虑到证候指标中可能含有一定的伪信息,而且,各证候指标对每个公因子的贡献度也不一样,如果对所有的证候指标直接进行因子分析可能会导致结果的偏差。所以,先进行第一次因子分析,舍去影响结果分析的次要因子中的证候信息,实现降噪处理,然后再进行第二次因子分析。

因子分析前首先要求对数据进行KMO和Bartlett检验,前者是检验变量间的偏相关系数的大小,其值介于0~1之间,KMO值越接近1,说明变量间相关性越强,因子分析的效果越好。Bartlett检验是用来判断相关阵是否为单位阵,如果为单位阵,则各变量独立,因子分析无效。本次研究中两次因子分析的KMO和Bartlett检验均提示了证候数据适合因子分析,结果的可信度较高。另外,两次因子分析的累积贡献率均大于65%,提示了所提取出来的公因子能反映原来大部分的证候信息。在因子分析后需要进行方差最大化正交旋转,其原则是各因子仍保持直角正交,使因子间相对载荷平方之和达到最大,即在平面坐标上,保持以圆点为轴心,X、Y轴交角为直角,然后对坐标轴进行旋转,通过旋转并不改变证候指标的信息量,而使各因子的解释更加合理。通过因子分析,我们还发现一个现象,即提取出来的公因子(基本证型)可以表现为属性相近,但各自的主症并不同,提示它们是从不同的角度来揭示同一个证候属性的,这样情况与临床实际是相符的。

在因子分析过程中还能计算出每个患者的不同公因子得分值,参考Green症状等级评分法,将这些公因子得分进行等级转换,分析每个患者的公因子组合情况,根据频数统计结果可以揭示出基本证型的组合规律。

早期笔者在聚类分析时是依据证候指标的特点对患者进行聚类,现在则尝试根据患者的公因子组合特点对患者进行聚类分析。用少数几个公因子替代众多证候指标后,由于各公因子的属性已经明确,这样各类的证候属性便易于判别,若再进一步结合每类患者的证候指标的频数分布情况就可以比较明确地归纳出脂肪肝的常见复合证型,使得统计分析的结果更为客观可靠。

3.3 进一步统计分析设想

在接下来的研究工作中,笔者还会尝试进一步联用判别分析和回归分析等多元统计方法。判别分析通常是先在某种“最优”意义下建立一个判别函数,并给定一个相应的判别规则来确定新的观测样品的归属类别。利用回归、典型相关分析等统计方法可以研究分类反应变量与多个影响因素之间的关系,筛选出对证候分类有意义的项目。

根据以往的统计思路如果直接进行判别分析,那它是基于个人体验、专家经验、小样本临床总结基础之上,就不可避免地夹杂很多主观性和经验性的成分,由此而建立的函数式显然不能成为最好的判别标准。而且,直接对证候指标进行判别、回归分析,常常会出现回归结果不稳定、判别函数变化较大等现象。所以,要先采用因子分析和聚类分析,在上述统计分析的基础上再联用判别分析和回归分析等方法就可以克服以上诸多不足之处。

4 结 语

多元统计分析善于对多个因素同时进行研究,不易遗漏主要信息,便于控制干扰因素对结果所造成的影响,所以,将多元统计方法用于中医证候分类研究,可以更好地利用临床证候信息,有利于从不同角度揭示疾病的证候分类特点。尽管各种多元统计方法,在单独运用时都存在不足之处,但联合应用两种或多种统计方法,可以取长补短,提高结果的准确性和可靠性。目前多元统计方法的联合应用思路仍处于一个探索阶段,我们首先要明确每种统计方法对数据的要求,结合中医整体观的辨证理论体系,全面分析文献报道中统计方法联用的利弊得失,参考其合理之处,不断完善中医证候分类研究的方法学。

参考文献

[1] 中华肝脏病学会脂肪肝和酒精性肝病学组.非酒精性脂肪肝诊断标准[S].肝脏,2002,7(4):附页2.

[2] 王家良.临床流行病学[M].2版.上海:上海科学技术出版社,2001:202.

上一篇:不同波长激光对大鼠白细胞减少模型的影响 下一篇:补阳还五汤抗脑缺血作用的研究进展