基于高通量基因数据的可视化在线诊断工具.pdf

基于高通量基因数据的可视化在线诊断工具.pdf

ID:35011143

大小:2.80 MB

页数:62页

时间:2019-03-16

基于高通量基因数据的可视化在线诊断工具.pdf_第1页
基于高通量基因数据的可视化在线诊断工具.pdf_第2页
基于高通量基因数据的可视化在线诊断工具.pdf_第3页
基于高通量基因数据的可视化在线诊断工具.pdf_第4页
基于高通量基因数据的可视化在线诊断工具.pdf_第5页
资源描述:

《基于高通量基因数据的可视化在线诊断工具.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于高通量基因数据的可视化在线诊断工具DEVELOPMENTOFVISUALDIAGNOSTICWEB-BASEDTOOLBASEDONHIGH-THROUGHPUTGENEDATA孙策哈尔滨工业大学2018年6月国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文基于高通量基因数据的可视化在线诊断工具硕士研究生:孙策导师:李杰副教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.

2、D.C:004.9DissertationfortheDoctoralDegreeinEngineeringDEVELOPMENTOFVISUALDIAGNOSTICWEB-BASEDTOOLBASEDONHIGH-THROUGHPUTGENEDATACandidate:SunCeSupervisor:Prof.LiJieAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTec

3、hnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要高通量生物测序技术的迭代革新和广泛使用为基因组学和分子生物学研究带来了革命性变化,产生了海量高通量基因表达数据。借助高性能计算,科研人员得以挖掘大规模基因表达数据中蕴含的生物学意义,并结合相似病例信息确定目标患者的疾病状态和发展阶段,加快对患者精准医疗方案的制定。但高通量基因数据维度高,不仅增加了问题分析的计算开销,而且特征间存在相互调控关系

4、并包含大量冗余特征,易对问题研究造成干扰。考虑到基因分析中的可解释性,如何选择合适的特征选择降维方法对相关疾病的高通量基因数据进行维数简约并进一步分析用以辅助快速诊断就成为一项具有研究意义的课题。为了更好地分析患者的高通量基因表达数据中与疾病相关的有效信息,我们提出了特征选择方法与相关降维技术结合的组合降维方法,并在4个高通量基因公开数据集上进行了实验探究,比较了若干组合降维方法下数据分类F1分数和计算耗时。实验证明,不同数据集上各个组合方法性能表现不尽相同,基于随机森林特征重要性的特征选择与主成分分析法的组合降维方法较其它方法性能表现更稳定,具

5、有一定普适性。此后,我们采用不同相似度测度的层次聚类和K均值聚类算法对低维高通量基因数据进行分析,并引入批量处理的思想对K均值聚类算法进行改进。此外,通过比较我们采用轮廓系数法作为数据样本类别未知情况下最佳k值选择的方法。实验证明,以欧几里得距离为相似性测度的层次聚类算法具有最佳聚类性能;相较于传统K均值聚类算法,基于批量处理的K均值聚类算法尽管存在一定程度的聚类性能的牺牲,但却可以大幅提升算法运行时间。最后,本课题提出了基于高通量基因数据的可视化在线辅助诊断工具,对聚类结果进行不同形式的可视化展示,结合多种交互手段,协助医疗人员以不同视角寻找与

6、目标患者的相似病例并筛选相关临床信息进行综合分析,更高效地进行精准化医疗方案的制定。关键词:高通量基因数据;维数简约;聚类;可视化;辅助诊断-I-AbstractAbstractTheiterativeinnovationandextensiveuseofhigh-throughputbiosequencingtechnologyhasbroughtrevolutionarychangestogenomicsandmolecularbiologyresearch,resultinginmassivehigh-throughputgeneexpre

7、ssiondata.Withthehelpofhigh-performancecomputing,researchersobtainthebiologicalimplicationsoflarge-scalegeneexpressiondata,andcombinesimilarcaseinformationtodeterminethediseasestatusanddevelopmentstageoftargetpatients,andacceleratetheformulationofprecisionmedicaltreatmentsche

8、me.However,thehigh-throughputgenedatawithahighdimensionincreasesthec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。