资源描述:
《基于支持向量机的生物医学文献蛋白质关系抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第3卷第4期智能系统学报Vol.3№.42008年8月CAAITransactionsonIntelligentSystemsAug.2008基于支持向量机的生物医学文献蛋白质关系抽取1211杨志豪,洪莉,林鸿飞,李彦鹏(1.大连理工大学电子与信息工程学院,辽宁大连116024;2.朝阳师范高等专科学校数学计算机系,辽宁朝阳122000)摘要:从生物医学文献中抽取蛋白质(基因)交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药的研制等均具有重要的意义.提出了一种基于支持向量机(SVM)的蛋白质(基因)交互作用关系抽取方法.该方法除了选取词项特
2、征、关键词特征、实体距离特征、链接特征外,还利用链接语法分析方法可以获得较高准确率的特性,引入链接语法分析方法抽取结果特征.实验结果表明,该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势,综合分类率F指标也高于其他系统.关键词:关系抽取;链接语法;支持向量机中图分类号:TP391文献标识码:A文章编号:167324785(2008)0420361209Extractionofinformationonprotein2proteininteractionfrombiomedicalliteraturesusinganSVM1211YANG
3、Zhi2hao,HONGLi,LINHong2fei,LIYan2peng(1.CollegeofElectronicandInformationEngineering,DalianUniversityofTechnology,Dalian116024,China;2.DepartmentofMath2ematicsandComputer,ChaoyangTeachersCollege,Chaoyang122000,China)Abstract:Automatedextractionofprotein2proteininteractioninforma
4、tionfrombiomedicalliteratureishelpfulwhenbuildingaproteinknowledgenetwork,predictingproteinfunctionsanddesigningnewdrugs.Thispaperpresentsamethodforprotein2proteininteractionextractionfrombiomedicalliteratureusingasupportvectormachine(SVM).Inthismethod,besidescommonindexparamete
5、rssuchaswordfeatures,keywordfeatures,entitydistancefeaturesandlinkpathfeatures,alinkgrammarextractionfeatureisusedtoimproveprecisionwhenidentifyingprotein2pro2teininteractions.ExperimentalresultsindicatedthattherecallrateandtheF2scoreofthismethodaremuchhigherthanthatofotherextra
6、ctionsystemsforthesamedataset.Keywords:interactionextraction;linkgrammar;supportvectormachine(SVM)随着高通量生物技术的发展,生物医学的实验求十分迫切.其中,从生物医学文献中抽取蛋白质手段和研究方法均发生了巨大的变革,领域内实验(基因)相互作用关系可以帮助建立蛋白质知识网数据的“指数性”增长,给数据的存储与传输,数据络、预测蛋白质关系以及辅助新药的研制,因此具有的处理、理解与应用带来一系列问题,来自数学、化重要的研究意义.学、药学、统计学和计算机科学等领域专
7、家给予了广1相关研究泛关注,并取得了大量成果.生物医学文献作为成果展示和学术交流的主要方式之一,其数目之大,增长当前进行蛋白质(基因)交互关系抽取主要有3速度之快远远超过了其他学科领域,采用文本挖掘种方法:基于自然语言处理的系统、基于模式匹配的技术从这座宝库快速有效地提取生物医学知识的需系统和基于机器学习与统计的方法.基于自然语言处理的系统通过分析语法结构进收稿日期:2008205207.行关系抽取,依据它们的分析策略将它们分为浅层基金项目:国家自然科学基金资助项目(60373095,60673039);国家“863”高科技计划资助项目(2006AA0
8、1Z151).分析系统和深层分析系统.Pustejovsky等人使用浅通信作者:杨志豪.E2m