关联规则在医学领域中应用的探索(精)

关联规则在医学领域中应用的探索(精)

ID:47684370

大小:90.00 KB

页数:9页

时间:2020-01-25

关联规则在医学领域中应用的探索(精)_第1页
关联规则在医学领域中应用的探索(精)_第2页
关联规则在医学领域中应用的探索(精)_第3页
关联规则在医学领域中应用的探索(精)_第4页
关联规则在医学领域中应用的探索(精)_第5页
资源描述:

《关联规则在医学领域中应用的探索(精)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.word格式.JournalofMathematicalMedicine.18  NO.3  2005Vol  文章编号:100424337(2005)0320240204   中图分类号:R311   文献标识码:A・统计分析・关联规则在医学领域中应用的探索△武建虎  贺 佳  贺宪民  张智坚3  吴 骋  马修强(第二军医大学卫生勤务学系卫生统计学教研室 上海)摘 要: ς2检验和可信度的提高来进行规则剪除。、多变量医学资料中具有一定的应用价值。关键词: 关联规则; ς2;;  关联规则(associati式,[1,]。在医学资料中进行关联规则挖掘的主要目的是寻找变量之

2、间的相关关系并得到容易理解的模式,但问题是面对大量的规则,如何选择真正有意义的规则?本研究结合列联表的ς2检验和可信度的提高来进行规则剪除,实践表明该方法是非常有效的,并已成功应用于实际数据。1 原理及方法111 关联规则挖掘的基本概念[1,2]事务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup,则称它为频繁项集(frequentitemset)。112 关联规则的实现本研究采用SAS8.2软件的enterpriseminer模块中的associationnode进行规则的挖掘,由于该方法是针对事务数据库进行操作(表1),但在医学数据库中,大部分数据存储

3、是多维的,不仅记录了病人的一般情况如姓名、年龄、性别等,还有实验室检查结果、影像学检查结果、诊断及治疗情况,见表2。所以在挖掘之前先将数据进行转化为事务数据库格式,见表3,Attribute代表属性2值的集合,对于如name一类的变量,因为对挖掘信息意义不大故省去,对于分类变量按其取值分为几个属性2值如sex表示为Sex_m和Sex_f,对于计量变量则将其离散再按分类变量对待。表2 医学数据库样例ID236237238nameTomRosesexmalefemalesmokingyesnoGOTWBC30344.918.1diagnosislungcancerhepatitis

4、.专业.专注..word格式.设I={i1,i2,…,im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得TΑI。每一个事务有一个标识符,称作TID(表1)。表1 事务数据库例子TID项的列表i1,i2i1,i3,i5i2,i3,imi2,i3,im1234……表3 转化后的数据格式  设A是一个项集,事务T包含A当且仅当AΑT。关联规则是形如A]B的蕴涵式,其中A

5、比是c,则规则A]B在事务集D中具有置信度c,这是条件概率P(BA)。即是:support(A]B)=P(A∪B)confidence(A]B)=P(BA)ID      Attribute236Sex_m,smoking_y,GOT_1,WBC_1,diag_1237Sex_f,smoking_n,GOT_1,WBC_2,diag_2238    ……  SAS采用Apriori算法利用k2项集来探索(k+1)2项集。首先找出频繁12项集的集合,该集合记作L1,L1用于找频繁22项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k2项集。然后再根据预先设定的最小支持

6、度和可信度产生规则。所以在SAS中主要确定三个参数:产生规则的项集最大数目(items)、最小支持度(min_sup)和可信度(min_conf)。输出结同时满足最小支持度阈值(min-sup)和最小置信度阈值(min_conf)的规则称为强规则。项的集合称为项集(itemset),包含k个项的项集称为k2项集。项集的出现频率是包含项集的果中是满足要求的所有规则以及每条规则的支持度(sup)、可.专业.专注..word格式. 收稿日期:2004211228 △国家自然科学基金(30471502);上海市自然科学基金(04ZR14049) 3第二军医大学东方肝胆外科医院・240・

7、数理医药学杂志信度(conf)、期望可信度(exp_conf)(即规则后件项的期望概率)、作用度lift(可信度与期望可信度的比值)等一些信息。113 规则的剪除方法2005年第18卷第3期2 数据模拟分析数据模拟方法的基本思想是:为了求解数学、物理、工程技术或随机服务系统等方面的问题,首先构造一个模型(概率模型或模拟系统模型),使所求问题的解正好是该模型的参数或特征量;然后,通过模拟统计试验,给出模型参数或特征量的估计值,最后得出所求问题的近似解[5]。本研究预先构造一组数据,使得其中的变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。