基于基因表达数据分析和处理关键技术

基于基因表达数据分析和处理关键技术

ID:34809660

大小:1.80 MB

页数:140页

时间:2019-03-11

基于基因表达数据分析和处理关键技术_第1页
基于基因表达数据分析和处理关键技术_第2页
基于基因表达数据分析和处理关键技术_第3页
基于基因表达数据分析和处理关键技术_第4页
基于基因表达数据分析和处理关键技术_第5页
资源描述:

《基于基因表达数据分析和处理关键技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博士学位论文基因表达数据分析和处理关键技术KeyTechniquesofGeneExpressionDataAnalysisandProcessing杨昆哈尔滨工业大学2008年4月国内图书分类号:TP311.13,TP393国际图书分类号:681.5工学博士学位论文基因表达数据分析和处理关键技术博士研究生:杨昆导师:李建中教授申请学位:工学博士学科、专业:计算机软件与理论所在单位:计算机科学与技术学院答辩日期:2008年4月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311.13,TP393U

2、.D.C.:681.5DissertationfortheDoctoralDegreeinEngineeringKeyTechniquesofGeneExpressionDataAnalysisandProcessingCandidate:YangKunSupervisor:ProfessorLiJianzhongAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerSoftwareandTheoryAffiliation:SchoolofCom

3、puterScienceandTechnologyDateofDefence:April,2008Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要基因表达水平是衡量基因功能活动的重要指标。基因表达的信息是理解基因功能和基因调控的潜在机制的一个重要线索。基因芯片(微阵列)具有在单一的实验中并行地检测任何细胞或组织类型中成千上万个基因的表达水平的能力,已经成为生物学和医学研究领域中常用的技术。随着微阵列的成熟和大量使用,产生了大量的基因表达数据

4、。基因表达数据不同于常见的科研数据,有其独特的特点:小样本、超高维、高噪音、变异性、基因间高冗余和高度关联、基因的知识不精确和不完全。这些特点使得对基因表达数据的分析和处理成为生物信息学领域中的一个重要挑战之一。本文针对基因表达数据的分析和处理技术进行了研究,主要研究成果如下:由于多种原因,基因表达数据(微阵列数据)中经常出现缺失值,对缺失数据的处理是基因表达数据处理和分析中的一个重要的步骤。本文提出一个基于偏最小二乘方法的缺失数据估计方法,并且针对应用偏最小二乘方法是为了预测缺失数据这唯一目的,提出了一个快速的

5、缺失数据估计算法。由于偏最小二乘方法有两个显著的优点:一对变量和样本的数目没有限制,二可以有效地减少相似基因间的多重相关性对预测能力的负面影响,本文所提出的方法适合处理微阵列数据。实验结果表明所提出的方法是一个有效的稳健的缺失数据估计方法。在基因表达数据分析中,鉴别基因是后续研究中非常重要的信息基因,有很多研究致力于从基因表达数据中选出信息基因这一挑战性工作。然而这些方法都没有考虑不同样本类别中样本大小的不平衡性问题。考虑样本不平衡性和基因选择方法的稳定性,提出两个全新的与数据分布模型无关的基因选择方法。在类内变

6、化小和类间差别大的策略下,选择敏感的度量函数提高方法的鉴别能力;同时,利用类内变化和类间差别的一致性来增加方法的稳定性和适用性。这一方法不但可以应用于两个类别的情况,也可以应用于多个类别的情况。最后,使用两组真实的基因表达数据对所提出的方法进行了验证。实验结果表明,这一方法比其他方法具有更高的有效性和稳健性。精确可靠的样本分类是基因表达数据分析中的一个重要问题。利用支持向量机方法在解决小样本、非线性、高维模式识别问题中的优势,同时利用树型结构的层次关系克服支持向量机方法本身没有生物学意义的缺陷,本文提–I–哈尔滨

7、工业大学工学博士学位论文出了基于类别树和支持向量机的多类分类算法,完全不同于单独考虑每个类的方法。这一方法考虑类别样本间的相互关系,充分利用类别标签这一先验知识构建一棵样本类别树,然后沿着树进行基因选择。最后由类别树和选出的基因训练基于支持向量机的分类器。我们的算法要处理的样本少,时间复杂性低,分类精度更高,选出的基因子集具有更好的针对性,结合树的层次关系,提供了更强的生物学意义。本文提出的算法用一个公共可得到的真实数据集进行了测试,结果表明分类能力优于先前证实表现最好的OVA方法。识别差异表达基因是基因表达数据

8、分析中的一个核心问题,很多研究人员提出了多个差异表达基因的识别方法,然而没有一个方法考虑了样本不平衡问题,也没有研究和数量化的方法来调查样本不平衡对差异表达基因检测的影响。事实上,样本不平衡经常出现在基因表达数据中。本文提出一个新颖的问题,即样本不平衡对识别差异表达基因的影响。本文给出两个基于统计抽样的评价模型来研究这一问题,并且在真实数据和模拟数据上比较六个典型的方法性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。