资源描述:
《粗糙集理论在肝病辅助诊断中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、粗糙集理论在肝病辅助诊断中应用摘要:粗糙集理论主要研究由论域和属性集构成的知识表达系统。医疗诊断中,大量病例、疾病症状和疾病诊断结果构成了一个医学信息决策系统。通过决策属性对条件属性依赖度和重要性分析,发现诊断结果与临床症状之间的关系,提取医学决策规则。实验表明,粗糙集用于肝病辅助诊断方法是正确可行的。关键词:粗糙集;肝病诊断;属性重要性;属性依赖度中图分类号:TP311文献标识码:A文章编号:1009-3044(2014)28-6591-02“大数据”时代,海量的数据中蕴藏看具有决策意义的信息,数据挖掘技术能够从大量的、不完全的、冇噪声的、模糊的数据屮发现隐含的、未知的、具有
2、潜在价值的信息和知识[1]。在众多数据挖掘技术中,粗糙集理论和方法在处理不精确、不确定、不完整数据时,无须提供问题所需要处理的数据之外的任何先验信息,从中挖发现隐含知识,揭示潜在的规律。H前,它已被广泛应用于人工智能、模式识别、智能信息处理的领域,并取得了丰硕成果。病毒性肝炎、脂肪肝、酒精肝、肝硕化、肝癌等肝病是威胁人类健康的主要疾病Z-o当前,我国有慢性无症状乙肝病毒携带者约1・2亿,慢性乙肝病人约3000万,丙肝感染者约1000万。研究表明,全球80%的原发性肝癌都是由病毒性肝炎引起的。如何有效控制肝脏疾病,预防肝硬化、肝癌的发生,是当前肝病防治领域所面临的重大挑战。临床医
3、学诊断中,症状数据是疾病诊断的主要依据。根据医学信息数据库屮大量诊断病例,以疾病诊断结果作为决策属性,以疾病症状数据为条件属性,发现医学诊断规则和模式,可以辅助临床医学诊断,提高临床诊断的准确性。1粗糙集理论定义1信息系统S二(U,A,V,f),U为非空有限集合,称为论域;A为非空有限的属性集合;V为属性值域,V=U{Va
4、aFA};f为UXA-V上的一个信息函数,表示?aeA,xeu,f(x,a)eVao如果A二CUD,且CnD=4),C为条件属性集,D为决策属性集,信息系统也称为决策系统[2]。定义2正域S二(U,A,V,f),X?U,R?A,属性集R的等价类Ri二[X]R
5、,则X的R下近似R*(X)和正域POSR(X)定义为:R*(X)二U{Ri
6、RiGU/R且Ri?X)}POSR(X)二R*(X)决策系统S=(U,CUDA,V,f),决策属性D在条件属性C下的正域定义为:POSC(D)二U{C*(Xi)
7、XieU/D}POSC(D)表明根据C进行的划分U/C,能够确切划入U/D屮元素的集合。定义3属性依赖度决策属性D对条件属性子集P?C的依赖度定义为:k二?P(D)二POSP(D)/U?
8、表示集合中元素的个数。k=l,表示根据条件属性P集,可以対U中所有数据准确分类;o9、示根据条件属性P集,不能対U中所有数据准确分类。定义4信息爛决策系统S二(U,CUD,V,f),U/C={X1,X2,・・・,Xm},U/D二{Yl,Y2,Yn},则条件属性集C的信息爛H(C)和决策属性集D的信息爛II(D)以及D相对于C的条件信息爛II(D
10、C)分别定义为:[H(C)二-i二Imp(Xi)log(p(Xi))][H(D)=-j=lnp(Yj)log(p(Yj))][H(D
11、C)=-i=lmp(Xi)j=lnp(Yj
12、Xi)log(p(Yj
13、Xi))]其中p(Xi)二
14、Xi
15、/
16、U
17、,p(Yj)二
18、Yj
19、/
20、U
21、,p(Yj
22、Xi)二
23、YjAXi
24、/
25、Xi
26、o文
27、[3]给出H(D
28、C)二H(DUC)-H(C)定义5属性重要性依据依赖度的变化定义:S=(U,CUD,V,f),?ceC的重要性定义为:SFG(c,C-{c},D)二?C(D)-?C-{c}(D)依据信息爛定义:SFG(c,C-{c},D)=H(D
29、C-{c})-H(D
30、C)决策系统即决策表中每一行都对应一条决策规则,如何得到约简的决策规则集是研究的目的。决策规则的约简是通过属性和属性值约简实现的,消去C中不重要的属性和兀余的屈性值,简化决策规则。2粗糙集在医学决策表中应用(c9)正常、乏力;是否乙肝(d)是、否。随机从表1中抽取200条记录构成论域U,
31、U
32、=200,条件属性
33、集C={cl,c2,c3,c4,c5,c6,c7,c8,c9},决策属性集D二{d}。另外20条记录构成测试样本集V。用结构化查询语言SQL的select语句计算属性的重要性和依赖度。计算条件属性cl的重要性:SFG(cl,C-{cl},D)二H(D
34、C-{cl})-H(D
35、C)先计算H(D
36、C-{cl}),H(D
37、C-{cl})=H(DUC-{cl})-H(C-{cl}),计算H(DUC-{cl})的select语句:selectcount(*)/200asct_D_C_clintob_D