欢迎来到天天文库
浏览记录
ID:27330642
大小:2.71 MB
页数:59页
时间:2018-12-02
《个人基因组信息管理及可视化技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP39学校代码:10213 国际图书分类号:004.9密级:公开工学硕士学位论文个人基因组信息管理及可视化技术研究硕士研究生:葛元弘导师:王亚东教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2011年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39U.D.C:004.9DissertationfortheMasterDegreeinEngineeringRESEARCHONPERSONALGENOMEDATAMANAGEMENTANDVISU
2、ALIZATIONTECHNIQUESCandidate:GeYuanhongSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ComputerScienceandTechnologyDateofDefence:June,2011Degree-Conferring-Institution:HarbinInstituteofTechn
3、ology哈尔滨工业大学工学硕士学位论文摘要伴随着测序技术的重大改革以及新一代测序技术的兴起,人类基因组草图 的完成以及千人基因组计划的开展,无一不昭示着个人基因组时代的到来。如 何管理这些海量的异构的个人基因组数据俨然成为首要课题。本文分析了个人基因组所包含的信息,了解国际上各种基因组注释数据的 组织方式,通过研究各种类型的基因组数据及其之间的相互关系,建立了一个 统一的个人基因组注释数据模型来存储个人基因组数据。通过该数据模型可以 实现基于数据类型、数据坐标、数据名称、数据描述等多种简单和复合的数据 库查询操作。此外
4、,为了整合不同格式的异构基因组数据,本文创建了若干数 据转换脚本自动地将各种格式的基因组数据文件转换为GFF3文件格式。为了 满足研究机构间的数据交换要求,本文创新的使用序列本体,一个由生物学家 承认的受控词表及其相互关系的集合,作为数据交换的标准以及语义异构现象 的解决方法。与此同时,本文还结合信息量理论与图的路径覆盖来计算序列本 体中各术语对的相似性,以实现个人基因组数据的语义模糊搜索对海量基因组 数据库进行多维数据分析。本文在课题研究过程中开发了一个用来发布、存储、管理及可视化个人基因组数据的信息系统,同时实现GB
5、rowse的自动化和自定义配置,使用开源 GBrowse模块作为可视化组件,并且在系统中加入了基于序列本体的语义搜索 功能以及数据过滤模块,便于浏览者从家族、种族等不同角度分析基因组的遗传变异和进化。此外,系统还严格限制用户操作数据的权限来维护系统数据的 安全性。该个人基因组信息管理系统能够有效实现数据之间的比较和共享,其丰富 的可视化功能将生物学家们从枯燥的海量数据中解放出来,有助验证假说和揭示生物学数据本身或者生物学分析的错误,这对生物学科的发展有着十分重要 的意义。关键词:个人基因组;序列本体;语义相似性;基因组可
6、视化-I-哈尔滨工业大学工学硕士学位论文AbstractWiththemajorreformandtheboomofNGS,theaccomplishmentofthedraftofthehumangenomeandthelaunchofthe1000genomesproject,itmakecleartoallthattheeraofpersonalgenomehasbecoming.Thus,howtomanagethesehuge genomicdatahasbecomeathought-provokingchal
7、lenge.Thispaperanalyzestheinformationwhichthepersonalgenomecontainsandthecommonformatwhichbiologicalsocietytendstousetorecordtheirannotations.Thispaperdesignsanuniformannotationdatamodeltostorepersonalgenomicinformation.Inaddition,thispaperusesomeshellscriptstotr
8、ansformtheothergenomicdataformatsintotheGFF3formatautomatically,inthiswayweresolvetheproblemabouttheintegrationofheterogeneousdata.Inordertosatisfythedemand of
此文档下载收益归作者所有