基于基因功能模块的基因表达谱数据挖掘

基于基因功能模块的基因表达谱数据挖掘

ID:33174055

大小:1.02 MB

页数:120页

时间:2019-02-21

基于基因功能模块的基因表达谱数据挖掘_第1页
基于基因功能模块的基因表达谱数据挖掘_第2页
基于基因功能模块的基因表达谱数据挖掘_第3页
基于基因功能模块的基因表达谱数据挖掘_第4页
基于基因功能模块的基因表达谱数据挖掘_第5页
资源描述:

《基于基因功能模块的基因表达谱数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学博士学位论文基于基因功能模块的基因表达谱数据挖掘郭政哈尔滨工业大学2005年5月国内图书分类号:TP391.9国际图书分类号:681.31工学博士学位论文基于基因功能模块的基因表达谱数据挖掘博士研究生:郭政导师:张田文教授申请学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2005年5月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.9U.D.C.:681.31DissertationfortheDoctoralDegreeinEngineeringDATAMININGOFGENEEXPRSEEIONPROFIL

2、ESBASEDONGENEFUNCTIONALMODULESCandidate:GUOZhengSupervisor:Prof.ZHANGTianwenAcademicDegreeAppliedfor:DoctorofEngineeringAffiliation:ComputerApplicationTechnologyDateofDefence:May,2005Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要应用高通量基因芯片技术,使得我们可以从以往对单个基因的局部、片面性研究,上升到对整个基因组的全

3、局、系统性的研究层面。基因表达谱数据挖掘面临检测数据高噪音、维数灾难、结果的生物学可解释性差等挑战。针对基因表达谱信息分析领域内实验条件相关的基因功能类挖掘和基因功能预测两个问题,我们设计了若干新的分析方法,这些新方法为解析基因表达谱信息中蕴藏的细胞功能机制和预测未知基因的功能提供了有效的生物信息学分析工具。我们利用基因功能分类体系GeneOntology(GO),分别设计了基于基因表达相似性和差异表达基因富集程度的实验条件相关功能类筛选的新方法。利用基因表达谱数据,按GO基因功能分类体系,将基因模块化地组织到具有显著生物学意义的低维差异表达功能模块单元中:(1)构造新的指标

4、用于分类疾病样本,从而提出基于功能表达谱的分析新途径。新算法对基因检测缺失、基因表达变异与检测误差具有较强的稳健性,并可以显著地降低特征维数。采用淋巴瘤数据集,比较了基于功能表达谱和常规的基因表达谱的决策树分类器。结果显示,基于功能表达谱可以得到高准确度的疾病样本分类结果,能够直接从功能水平上给出相应的生物学解释。通过仿真分析,进一步显示基于功能表达谱的分类方法具有抗基因检测缺失的稳健性。(2)基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题。采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析,结果显示新算法不但得到高准

5、确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释。(3)特定的疾病状态一般仅与少数基因有比较直接的关系,而这少数疾病相关的基因对应的基因功能类中应该显著聚集由于疾病状态引起的差异表达的基因。据此假设,提出了一种结合基因功能分类知识的特征基因选择与疾病分类方法。在将基因注释到基因功能分类体系GO中的功能类后,通过寻找显著聚集差异表达基因的功能类,识别可能的疾病相关基因功能类,再根据差异表达功能类中的基因表达谱进行疾病分类分析。采用支持向量机分析了一套淋巴瘤数据集,结果显示,基于功能特征基因选择的方法可以显著降低—I—哈尔滨工业大学工学博士学位论文分析维数,得到高

6、准确度的疾病样本分类结果,能够直接从功能水平上给出分类结果相应的生物学解释。(4)提出结合基因功能分类体系GO,进一步筛选聚类特征基因的方法。通过检验在GO中的每个功能类中的表达变异基因是否非随机地聚集,寻找疾病相关功能类,再根据相关功能类中的表达变异基因进行聚类分析。实验结果显示:结合功能体系GO进一步筛选表达变异基因作为聚类特征基因,可以保持或提高聚类准确性,并使得聚类结果具有明确的生物学意义。另外,发现了一些可能和淋巴瘤和白血病相关的基因。(5)利用有限个实验条件下的基因表达谱数据,只能对与实验条件相关的基因功能类进行有效预测,所以有必要限定可预测的基因功能类范围。据此

7、,我们将基因注释于基因功能知识体系GO后,再选择富集差异表达基因的与实验条件相关的功能类。通过支持向量机分类器,深化预测迄今只注释到实验条件相关功能类的父结点的基因是否属于该实验条件相关功能类。应用一套酵母基因表达谱数据,我们分析了按照不同的显著性水平筛选实验条件相关功能类后的预测效果。结果显示,在剔除了高度不平衡的训练集合后,平均精度与平均召回率分别达到了71%与47%以上。(6)提出了结合基因表达相似性和基因功能类别在GO分类体系中的概念相似性测度进行基因功能预测的新方法。与已有的其它基因功能预测方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。