基于ap聚类的蒸馏算法筛选乳腺癌致病基因

基于ap聚类的蒸馏算法筛选乳腺癌致病基因

ID:33544770

大小:2.68 MB

页数:77页

时间:2019-02-27

基于ap聚类的蒸馏算法筛选乳腺癌致病基因_第1页
基于ap聚类的蒸馏算法筛选乳腺癌致病基因_第2页
基于ap聚类的蒸馏算法筛选乳腺癌致病基因_第3页
基于ap聚类的蒸馏算法筛选乳腺癌致病基因_第4页
基于ap聚类的蒸馏算法筛选乳腺癌致病基因_第5页
资源描述:

《基于ap聚类的蒸馏算法筛选乳腺癌致病基因》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于AP聚类的蒸馏算法筛选乳腺癌致病基因作者姓名刘志敏导师姓名、职称杨利英副教授一级学科计算机科学与技术二级学科计算机应用技术申请学位类别工学硕士提交学位论文日期2014年12月学校代码10701学号1203121736分类TN82号TP39密级公开西安电子科技大学硕士学位论文基于AP聚类的蒸馏算法筛选乳腺癌致病基因作者姓名:刘志敏一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:杨利英副教授提交日期:2014年12月BreastCancerRelatedGenesScreenedbyDistillationAlgorithmBase

2、donAPClusterAnalysisAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerScienceandTechnologyByLiuZhiminSupervisor:AssociateProf.YangLiyingDecember2014西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以

3、标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文

4、。同时本人保证,获得学位后结合学位论文研究成果撰写的文章,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要第三代高通量测序技术可以更精准、更全面地获得人类基因信息,为研究乳腺癌与基因表达之间的关系提供了新途径,同时也带来了新的挑战-如何从三万多个已知人类基因中高效准确地筛选乳腺癌致病基因。传统单因素方法只考虑单个基因的异常表达对乳腺癌的影响,没有能力处理基因间的交互作用;测序过程产生的噪声数据的统计显著性往往高于单个正常基因的统计显著性,以致噪声特征被误认为致病基因而被筛选出来,这些噪声特征往往缺乏生物意义上的合理

5、解释。鉴于传统方法的不足,本文提出了一种基于AP聚类分析的蒸馏算法筛选乳腺癌致病基因,取得的创新性成果如下:1.针对基因特征选择,提出了一种基于AP聚类分析的蒸馏算法。蒸馏算法首先应用AP聚类将全基因特征聚成多个基因簇;然后在各个基因簇中蒸馏筛选关键基因;最后将筛选出的关键基因聚合在一起。整个过程迭代进行,通过调节参数控制筛选强度和聚类生成的基因簇的个数,直到筛选出的关键基因个数等于预先设定的值,算法才停止。蒸馏算法模拟物理蒸馏过程,通过AP聚类过程、蒸馏筛选过程、冷凝过程三个子过程完成。其中AP聚类过程旨在将功能类似或者存在交互作用的基因聚到同一个基因簇中;蒸馏筛选过程

6、通过调节参数,可以筛选出乳腺癌关键基因,这些基因可能个体表达水平并不显著,但与簇内其他基因存在功能上的关联性或者其他交互性;冷凝过程是将各个基因簇中筛选出的基因重新聚合在一起,为下一次迭代做准备。2.应用蒸馏算法从20141个人类基因中筛选出473个与乳腺癌紧密相关的基因,聚类分析将这些基因聚成9个基因簇。鉴于目前已知的乳腺癌致病基因集中分布在第8个基因簇,本研究对该基因簇的77个基因之间的交互作用、以及与乳腺癌之间的关联性给予生物意义上的解释,并建议其中66个新发现的乳腺癌关联基因作为后续研究的重点。进一步,还分析了77个基因的甲基化程度,筛选出与对应基因表达水平之间的

7、相关性比较大的4个碱基位点。3.采用基因簇富集分析方法对蒸馏算法生成的9个基因集合进行了统计分析,验证了算法筛选出的基因集合的有效性。本研究还探究了参数变化对算法性能的影响,并给出了算法参数的调优标准。蒸馏算法的优势在于通过AP聚类分析,能够更好地发现基因之间的交互作用,使筛选出的乳腺癌致病基因具有良好的生物解释性;蒸馏筛选过程在各个基因簇中I西安电子科技大学硕士研究生毕业论文独立进行,互相不影响,可以并发执行,提高了算法的处理速度;通过参数调优,可以筛选出最优的致病基因子集,同时也使算法能够灵活适应不同的应用场景。关键词:A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。