欢迎来到天天文库
浏览记录
ID:32975193
大小:4.54 MB
页数:72页
时间:2019-02-18
《基因表达数据的频繁闭合项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级UDC学号桂林电子科技大学硕士学位论文题目基因表达数据的频繁闭合项集挖掘算法研究(英文)ResearchofMiningFrequentClosedItemsetsfromGeneExpressionDatasets研究生姓名:史建军指导教师姓名、职务:缪裕青(副教授)董荣胜(教授)申请学位门类:工学学科、专业:计算机应用技术提交论文日期:2010年4月7日论文答辩日期:2010年6月12日2010年6月13日万方数据独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所
2、知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得桂林电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明本人完全了解桂林电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属桂林电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为桂林
3、电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在____年解密后适用本授权书。本人签名:日期:导师签名:日期:万方数据摘要摘要基因表达数据蕴含丰富的生物信息,但由于其高维且数据量大的特点,生物信息的挖掘成为极具挑战性的课题。关联分析由于形式简单且结果易于理解,已逐渐成为基因表达数据重要的分析方法之一。频繁闭合项集挖掘是关联分析中的重点和难点之一。本文对基因表达数据中频繁闭合项集挖掘
4、算法做了全面深入的研究。针对当前算法中存在的一些不足提出改进算法。针对目前基因表达数据的频繁闭合项集挖掘均需先设定最小支持度,提出挖掘基因表达数据中top-k频繁闭合项集问题,并设计了相关算法。本文主要研究工作如下:(1)对现有频繁项集和频繁闭合项集挖掘算法进行深入剖析。从已有算法使用的策略和数据结构着手分析算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。(2)采用行枚举空间搜索时,已有自底向上策略并未有效利用最小支持度阈值对搜索空间进行修剪,导致算法的时空性能较差。基于自顶向下策略的频繁闭合项集挖掘算法TP+clo
5、se较好地解决了此问题。然而,TP+close算法在对项集进行闭合性检测时,要对已输出的频繁闭合项集进行扫描,影响了算法性能。通过对TP+close算法和数据结构TP+-tree深入分析,提出改进的数据结构TTP+tree和基于该结构的改进算法TTP+close。算法TTP+close引入了一种新的闭合性检测方法,即基于痕迹的闭合性检测方法,避免对已输出的频繁闭合项集扫描来判别将输出项集的闭合性。(3)已有大多数挖掘基因表达数据的频繁闭合项集需先设定最小支持度,但在实际应用中确定合适的最小支持度并不容易。本文提出在基因表达数据
6、中挖掘top-k频繁闭合项集问题,并设计了挖掘算法TBtop。算法使用自顶向下宽度优先搜索策略挖掘项集长度不小于给定值min_l的top-k频繁闭合项集,并对搜索空间进行了有效修剪。关键词:基因表达数据;关联规则;频繁闭合项集;top-k频繁闭合项集;自顶向下;宽度优先I万方数据AbstractAbstractSomewealthbioinformationhasbeenhiddeningeneexpressiondatasets.However,duetothefeatureofhigh-dimensionalandlarg
7、evolumesofdata,thehigh-performancemeansisnecessarytoobtainthisinformance.Theassociationanalysisissimpleinformandtheresultiseasytounderstand,whichbecomesgraduallyanimportantanalysismethodingeneexpressiondataanalysis.Miningfrequentcloseditemsetsisemphasesanddifficulty
8、inassociationanalysis.Inthispaper,thealgorithmsofminingfrequentcloseditemsetareresearcheddeeplyandutterlyingeneexpressiondata.Animprovedal
此文档下载收益归作者所有