基于多标签分类的基因术语标注.pdf

基于多标签分类的基因术语标注.pdf

ID:50162897

大小:6.38 MB

页数:60页

时间:2020-03-09

基于多标签分类的基因术语标注.pdf_第1页
基于多标签分类的基因术语标注.pdf_第2页
基于多标签分类的基因术语标注.pdf_第3页
基于多标签分类的基因术语标注.pdf_第4页
基于多标签分类的基因术语标注.pdf_第5页
资源描述:

《基于多标签分类的基因术语标注.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、■?■?tcm;‘A.i:10697分类号:TP3丨丨I:学校代码丨?論.:201220969密级:公开学号NorthwestUniversity硕士学位i2文MAST'SERTATONERSDISI?、‘.基于多标签分类的基因术语标注/.‘r学科名称:计算机软件与理论作者:王佳荣指导老师:冯缚教授":.、‘S泣西北大学学位评定委员会二0—五年六月I'MASTERSDEGREEDISSERTA

2、TIONw-GeneOntoloTermsLabelinithMultilabelgygClassificationSubectName:ComuterSoftwareandTheorjpyAuhoWJ-tr:aniaronggSuervisor:Prof.FenJunpgSchoolofInformationScienceandTechnologyNorthwestUniversityX'ian710069P.R.China,,

3、June2015,西北大学硕士学位论文西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。学位论

4、文作者签名:指导教师签名:yyj/^_>/s年6月丨f曰zws年6月/¥曰西北大学学位论文独创性声明本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其它人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢jA:.oy?*学位论文作者签名:I解>/¥年6月曰西

5、北大学硕士学位论文摘要随着生物科技的发展,研究者们发现基因是导致疾病产生的直接或间接原因,因此,基因研究受到了越来越多研究者的关注。当前海量的生物医学文献与基因相关,研究者们希望对这些文献进行标准的基因术语的标注。然而,手工分析和利用搜索引擎进行文献的基因标注费时费力一。因此,本文提出了种自动化的文献基因术语标注方案。我们首次将文献的基因术语标注投射到多标签分类的框架下,提出了多标签学习的模型训练方案。首先,从国际最著名的生物医学领域的搜索引擎Pubmed中查找基因术语关键词

6、的生物医学文献,利用其Mesh功能完成文摘的基因标签标注,构成训练数据集,根据训练数据集设计多标签分类器。接着,我们提出了两个基于多标签分类的基因Rank-SVMSCRank-)术语标注算法,约束简化的(SVM和正则化RBF网络多标签分类(ReguRBFML)算法进行测试样本的自动化基因标柱。最后,我们提出了术语标注分类器性能评估标准,完成了算法的性能评估。-约束简化的RankSVM多标签基因术语标注算法(Simlfiedonstranan-piCitsRkSVM,SCRank-S

7、VM)主要依据Rank量化样本标签之间的相关性的思想,首先定义无偏置b的多标签分类决策面和边缘,然后通过最大化边缘和最小化Rankingloss函数建立分类-。an模型,最后利用阈值函数预测标签与RkSVM算法相比,由于约束条件没有b项,SCRank-SVM算法在对偶优化问题中具有更少的优化约束条件空间。,从而获得更优的解tworkMu-正则化RBF网络多标签分类算法(RegularizedRBFneuralneltiLabel,ReguRBFML)主要解决多标签算法运行时间长

8、的问题,为了保证分类准确率的情况下减少生物医学文献基因标注的时间,我们将径向基函数RBF单层前馈神经网络拓展到多标签分类问题。SOMSelfOranizationMap具有聚类速度快、泛化性能好等优点,利(g)用SOM聚类方法产生RBF的聚类中心,然后建立正则化的最小二乘学习模型,使用岭回归的方法得出神经网络的隐藏层到输出层的权重向量,最后用阈值函数预测标签。在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。