欢迎来到天天文库
浏览记录
ID:36571468
大小:2.87 MB
页数:73页
时间:2019-05-12
《基于粗糙集理论的基因序列研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文基于粗糙集理论的基因序列研究姓名:吴祖剑申请学位级别:硕士专业:计算机应用技术指导教师:王加阳20080512摘要粗糙集理论是一种处理不确定、不完备和不精确数据的数学理论工具,在数据分析与处理领域有着广泛而重要的应用。生物信息学是一门结合了数学理论、计算机科学与生物学知识的新兴交叉学科,其目的是致力于对生物信息的获取手段、处理方法、存储方式进行研究,分析和解释大量生物学数据背后所包含的生物学意义以及应用,生物信息学目前己成为世界交叉学科研究领域的一个新热点。本文基于粗糙集理论,主要对生物信息学中涉及D
2、NA序列的启动子与基因表达序列数据进行研究。粗糙集理论在启动子序列研究中具有独特的优势。启动子识别研究从生物学实验手段随着高效计算能力的计算机出现而转到了计算机模拟识别。启动子是指导基因转录起始重要作用的序列段,在DNA序列中可能处于多个位置。在DNA序列中寻找确切的启动子位置具有一定的困难,应用统计学知识、粗糙集理论中信息系统的约简与规则获取方法,可以对不确定启动子位置进行分析、识别并预测一段DNA序列中存在启动子的可能性。在基因表达序列的数据分析与规则获取研究中,粗糙集也具有较优表现。本文将粗糙集理论应用于基因表达谱
3、数据分析,给出一种基于粗糙集理论与信息论的基因分析与选择启发式算法,处理大基因数据集中存在冗余信息的问题,从海量基因数据集中选取了与疾病最关联的基因集合。该方法能够有效处理以基因数据信息构成的信息系统中的大量属性情况,降低去除无关联属性的成本,高效获取目的基因集合。基于该启发式算法的理论研究,在基因数据库中保留了关联基因,辅助获取基因决策表的最简规则,并向专家提供决策支持,构建辅助决策的规则知识库。本文最后在基因表达序列研究领域广泛应用的实际医疗数据集Leukemia数据集上进行了算法理论实验仿真,仿真结果进一步阐明了理
4、论研究成果。关键词粗糙集,生物信息学,启动子,粗糙熵ABSTRACTRoughSetTheory(RST)isamathematicsmethodfordealingwithuncertain,imperfectionandimprecisedata.Itiswidelyappliedindataanalysisandprocessingarea.Bioinformaticsisallinterdisciplinecombinedwithmathematics,computerscienceandbiology.Itis
5、studyingthebiologyinformationbydifferentmethods,analyzingthemeaningofbiologydataandapplyingresearchresultsIntopractice.BiointonnancslS●‘——‘‘一●●oneofthehotspotinthecross—disciplinesallovertheworld.BasedonRST,thepromoterandgeneexpressionsequencedatainbioinformatics
6、aremainlystudiedinthisthesis.ItisanadvancedmethodforRSTbeingappliedinpromotersequenceresearch.Promoteridentifyingresearchismovedfromthebiologyexperimentmethodstocomputersimulatingidentification.Itisanimportantsequencesegmentforpromotertoinstructthetransferofgene.
7、PromoterscanbeonseverallocationsinDNAsequence.Therefore,itisdifficultytolocatetheexactpositionsforpromotersinDNAsequence.ApplyingthestatisticsandRSTintothepromoterresearchisgoodforlocatingtheuncertainposition,identifyingandpredictingthepromotersinDNAsequences.RST
8、iSalsoexcellentinthestudyofgeneexpressionsequenceandgenerationofdecisionrules.BasedonRSTandinformationtheory,aheuristicalgorithmforgeneanalysisandselectionispr
此文档下载收益归作者所有