基于非平衡数据的生物文献分类研究

基于非平衡数据的生物文献分类研究

ID:34039972

大小:2.30 MB

页数:60页

时间:2019-03-03

基于非平衡数据的生物文献分类研究_第1页
基于非平衡数据的生物文献分类研究_第2页
基于非平衡数据的生物文献分类研究_第3页
基于非平衡数据的生物文献分类研究_第4页
基于非平衡数据的生物文献分类研究_第5页
资源描述:

《基于非平衡数据的生物文献分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(申请工学硕士学位论文)基于非平衡数基于非平衡数据的生物文献据的生分类研究物文献分类研究沈冰培养单位:信息工程学院玉学科专业:通信与信息系统研究生:沈冰玉武汉指导教师:娄平教授理工大学2014年4月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、

2、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据分类号密级UDC学校代码10497学位论文题目基于非平衡数据的生物文献分类研究英文Automaticcategor

3、izationofbioscienceliterature题目basedonimbalanceddata研究生姓名沈冰玉姓名娄平职称教授学位博士指导教师单位名称信息工程学院邮编430070姓名钟毅职称副教授学位博士副指导教师单位名称信息工程学院邮编430070申请学位级别硕士学科专业名称通信与信息系统论文提交日期2014年4月论文答辩日期2014年4月学位授予单位武汉理工大学学位授予日期答辩委员会主席评阅人2014年4月万方数据武汉理工大学硕士学位论文摘要近几十年来,生物信息学实验手段和研究方法的不断突破和数据存储技术的快速发展使得领域内实验数据及相关研究文献呈现爆炸式增长。如何从规模

4、日益增大的网络数据库中快速有效的提取感兴趣的信息成为生物信息学的一大挑战。随着文本挖掘技术的兴起,将其应用在生物信息学文献挖掘领域受到了广泛的研究与关注。利用文本挖掘技术不仅能从文献数据中发现知识从而掌握领域研究现状,更可以自由构建生物信息数据库。生物学文献挖掘系统成为了现代生物学研究工作的重要组成部分。在动植物生长过程中,许多重要的经济性状都是数量性状,据此引入了数量性状座位(QuantitativeTraitLocus,QTL)来描述控制数量性状的基因。现有针对某个或某些物种的QTL信息数据库,它们大多均采用人工筛选文献的方式为这些数据库搜集信息。针对这些QTL信息数据库包含信息不

5、完整和更新不及时的问题,本文尝试将基于机器学习的文本分类方法引入生物信息数据库构建流程,从大量文献中挖掘出特定的目标文献,构建了面向作物QTL定位的文献自动分类系统。本文的研究对象是大量特定物种的生物学研究文献,其研究目标是从中分类出与物种QTL定位相关的研究文献,为构建物种QTL信息数据库提供原始数据。在研究过程中,为实现对文献的分类采用了支持向量机来进行文本分类。用于支持向量机学习的实例文献来源于各个网络权威生物信息网站,通过网络爬虫程序逐级追踪链接将这些文献信息下载存为文本文档。针对学习实例来源于不同数据库,因此可能存在的数据格式的不一致和信息冗余问题,对该数据集进行了多种形式的

6、数据清理工作。本文的待分类文献数据来源于PubMed数据库,通过对待分类文献数据集进行量化分析,得出本文的分类任务具有不均衡数据特性。针对该问题,在文本表示阶段,利用本文分类的生物学文献特性提出了将词表示和词组表示相结合的向量构建方法,有效提高了分类精度。在数据层面,对改善不均衡数据对分类器性能影响的多种典型重采样策略进行了综合比较,同时结合支持向量机内部各核函数和参数选择方法进行了细致的实验,选择出各个核函数和多种重采样策略之间相互最匹配的组合,给出了最适合本文任务的解决方案。最后通过对单个物种和多个物种混合的大量研究文献数据集进行预测分类,验证了本系统的有效性和普适性。关键词:文本

7、分类,支持向量机,QTL,非平衡数据I万方数据武汉理工大学硕士学位论文AbstractInrecentyears,theongoingbreakthroughofbio-informationexperimentmethodstogetherwiththerapiddevelopmentofdatastoragetechnologiesbringtheexplosiveincreaseofexperimentdataandresearchlit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。