基于数据挖掘的生物序列分类研究

基于数据挖掘的生物序列分类研究

ID:36666262

大小:2.93 MB

页数:60页

时间:2019-05-13

基于数据挖掘的生物序列分类研究_第1页
基于数据挖掘的生物序列分类研究_第2页
基于数据挖掘的生物序列分类研究_第3页
基于数据挖掘的生物序列分类研究_第4页
基于数据挖掘的生物序列分类研究_第5页
资源描述:

《基于数据挖掘的生物序列分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号!里三窆羔重庆邮电大学硕士学位论文硕士研究生煎叠生指导教师堂垄垒型丝蕉学科专业盐差塑速周垫查论文提交日期至垒!垄生垒旦论文答辩日期垄Q!垄生墨旦垄鱼旦论文评阅人2012年5月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重迭邮鱼盍堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:伍涛竿签字日期:驴?1,年多月上日学位论文版权使

2、用授权书本学位论文作者完全了解重麽蜜g电太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权重麽虫&电太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:贺济卑签字日期:切7埤多月』日翮签名:狻力笪签字日期:黼年莎月6日重庆邮电大学硕士论塞塑—————————_—_—-—-——_——————————————————————————_————-———_———————————————一一

3、摘要随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所隐含的有价值的信息,是目前最有效的数据分析手段。生物序列数据是生物医学研究的主要内容之一,通过对其进行分析,研究者不仅能够理解已有的序列,而且能够更好地研究新颖的序列及其所拥有的功能,解读序列在它所在的生物体中所充当的角色,进而更好地理解生命的本质。本文主要针对生物序列分类技术领域中的两个重要的研究方面:生物序列的分类分析和和异常检测。生物序列分类分析能够为未知标号的生物序列指定其所属的类别,进

4、而预测它的功能以及与其它生物序列之间的相互关系,以辅助生物分子中的基因识别和预测蛋白质的结构等。异常检测可视为一类特殊的分类问题,生物序列中的异常主要是指突变或是一种疾病的特征,生物序列异常检测有助于发现突变,了解疾病产生的条件,分析疾病产生的机理,为疾病的诊断和治疗提供依据。生物序列是由字符组成的序列数据,传统的数据挖掘技术主要适用于数值属性和分类属性的数据,难以直接应用于序列数据。针对上述问题,本文使用滑动窗口技术抽取子序列,并计算子序列在训练序列集中出现的频率,然后将频率值作为序列的特征映射到连续空间中,该方法有效地解决了传统的数据挖掘技术难以处理序列数据

5、的问题。基于转换后的数据,本文给出了一种新的基于支持向量机的生物序列分类算法,通过对蛋白质序列的分类实验验证了该算法的有效性。在生物序列异常检测技术中,相似性是生物序列异常检测的基础,相似性度量的好坏将直接影响生物序列异常检测的结果。生物医学研究表明,生物异常序列普遍的特点是其中的某些片段发生了改变。基于滑动窗口技术的子序列抽取技术能够有效发现序列中的局部异常,因此本文设计了一种新的基于滑动窗口的共享最近邻相似度,并根据这种相似度给出了基于核的生物序列异常检测算法。通过检测蛋白质异常序列验证了该算法的有效性。本文设计的算法只考虑了生物序列数据的特点,对大多数生物

6、序列的处理是有效的。但是,在生物进化过程中由于遗传变异,许多同源序列可重庆邮电大学硕士论塞一二堕里能发生序列内碱基的替换、或序列片段的缺失,如果仅仅考虑生物序列数据的特点设计算法将会失效,需要结合生物学知识设计有效的挖掘算法。关键词:生物序列,分类,异常检测,滑动窗口,共享最近邻AbstractWiththedevelopmentofbioinformatics,biomedicaldatashowsexplosivegrowth.Nowithashundredsofactivebiomedicaldatabases,howtomanageandanalyzet

7、hevastamountsofdatahasbecomethefocusofthestudy.Dataminingtechniquescandiscoverthevaluableinformationamongthelargeamountsofdata,andnowitisthemosteffectivemeansofdataanalysis.Biologicalsequencedataisoneofthemaincontentsofthebiomedicalresearch.Throughtheanalysis,theresearcherscannotonly

8、understandth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。