论证候研究中变量聚类结果的诠释

论证候研究中变量聚类结果的诠释

ID:17370298

大小:53.00 KB

页数:4页

时间:2018-08-30

论证候研究中变量聚类结果的诠释_第1页
论证候研究中变量聚类结果的诠释_第2页
论证候研究中变量聚类结果的诠释_第3页
论证候研究中变量聚类结果的诠释_第4页
资源描述:

《论证候研究中变量聚类结果的诠释》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、论证候研究中变量聚类结果的诠释张连文1,周雪忠2,何丽云2,刘保延21香港科技大学计算机科学及工程学系,香港2中国中医科学院,北京,100070Email:lzhang@cse.ust.hk,zxz@mail.cintcm.ac.cn,heliyun@tcmcec.com,liuby@mail.cintcm.ac.cn摘要:近年来有不少学者利用变量聚类方法研究西医病种中中医症状的分布规律,把所得的类诠释为证候,从而得到一些关于证候分布的结论。本文剖析变量聚类结果的统计学含义,并基于此讨论把变量聚类结果诠释为证候的合理性。1.引言变量聚类也称指标聚类,其目标是要把相似的变量聚到同一类,不相

2、似的变量聚到不同的类,从而揭示变量之间的关系。就具体算法而言,证候研究中用得最多的是系统聚类,也称归并层次聚类。系统聚类首先计算变量两两之间的相似系数,把每一个变量看成一类,并以变量之间的相似系数作为类之间的相似系数;然后开始逐步将类进行合并,每次将相似系数最大的两个类并成一个新类,并计算新类与其它类之间的相似系数,这样每次减少一个类,直到所有变量都聚成一类为止[1]。系统聚类的过程可以表述为一张冰柱图。最后在冰柱图的适当位置截取,而得数个变量类。近年来有不少学者利用系统变量聚类方法对西医病种中中医症状的分布情况进行研究。例如,麻晓慧等[2]通过对739例胆病病案进行分析,得到9个类,并

3、把它们分别诠释为肝胆湿热证、肝胆郁热证、肝胆蕴热证、肝胆气郁证、血瘀证、脾失健运证、阳虚寒湿证、阴虚内热证和热毒亡阳证。其它被研究的西医病种有子宫肌瘤[3]、月经过多[4]、胃癌[5]、胸痹心痛[6]、冠心病[7]等等。本文剖析系统变量聚类结果的统计学含义,并基于此讨论把它们诠释为证候的合理性。我们的结论是,变量聚类的结果不能诠释为证候。2.变量聚类结果的统计学含义在麻晓慧等[2]分析的胆病数据中,症状变量全部是二值的。分析所得的变量类之一如下:类1:发热寒战、右上腹压痛拒按、黄疸、右上腹疼痛、恶心呕吐、大便秘结、小便色黄、苔黄、苔腻、脉滑、脉弦、口苦。本节以这个类为例,剖析系统变量聚类

4、结果的含义。要准确把握这个类的含义,需要考虑三个因素,即‘变量’与‘事件’这两个概念的区别、变量间相似系数的定义、以及变量类间相似系数的定义。下面逐一讨论这三个因素。2.1变量与事件变量是刻画事物某方面特征的指标,它的每一个取值对应一个事件。先拿概率论中常用的抛掷硬币试验为例来解释这两概念。抛掷硬币试验可以从多个方面来看:使用的硬币是否质地均匀、抛掷方式如何、抛掷结果是什么、等等。‘抛掷结果’这个指标刻画试验一个方面的特征,因此它是一个变量。这个变量有两个可能的取值,即‘正面朝上’和‘反面朝上’。于是有两个事件,即‘抛掷结果正面朝上’和‘抛掷结果反面朝上’。接下来看一个中医的例子。‘有无

5、口苦’是反映病人身体一个方面特征的指标,因此它是一个变量,称为症状变量。它有两个可能的取值,即‘有’和‘无’。于是有两个症状事件,即‘(病人)有口苦’和‘(病人)无口苦’。如果要考虑不同轻重程度,相应的变量是‘口苦程度’。一般情况下,程度变量有4个可能的取值,即‘无’、‘轻’、‘中’和‘重’。于是有4个症状事件,即‘无口苦’、‘有轻度口苦’、‘有中度口苦’和‘有重度口苦’。为了统一二值和多值情况下症状变量的称谓,可以用‘口苦情况’来替代‘有无口苦’和‘口苦程度’。‘有口苦’这个词通常被简化为‘口苦’。同时,‘口苦情况’也被简化为‘口苦’。这样,‘口苦’时而指‘口苦情况’这个变量,时而又指

6、‘有口苦’这个事件。在下一节读者将会看到,这种歧义性造成了对变量聚类结果之含义的误解。顾名思义,变量聚类的对象是变量而不是事件,其结果是变量的类而不是事件的类。所以,类1的成员是‘口苦情况’等症状变量,而不是‘有口苦’等症状事件。为了避免误解,我们把类1的定义改写如下:类1:发热寒战情况、右上腹压痛拒按情况、黄疸情况、右上腹疼痛情况、恶心呕吐情况、大便秘结情况、小便色黄情况、苔黄情况、苔腻情况、脉滑情况、脉弦情况、口苦情况。2.1变量类相似系数‘口苦情况’等12个症状变量为什么会被聚成一类呢?它们被聚成一类这件事的含义是什么?一个粗略的回答是,这意味着‘口苦情况’等12个症状变量之间的相

7、似度高。如果要准确回答这个问题,则需要考虑如何基于变量之间的相似系数定义类之间的相似系数。常用的方法有最大相似系数法、最小相似系数法和平均相似系数法。在计算两个类A和B间的相似系数时,考虑A中变量与B中变量间的相似系数。最大相似系数法取其最大者,最小相似系数法取其最小者,而平均相似系数法取平均数。[1]如果类1是用最大相似系数法获得的,那么对类中任意一个变量V,类中有另外一个变量U使得V和U间的相似系数不低于某个阈值。如果类1是用最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。