欢迎来到天天文库
浏览记录
ID:53029793
大小:511.53 KB
页数:7页
时间:2020-04-14
《基于相似性混合模型的蛋白质交互识别-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第41卷第7期计算机工程2015年7月VO1.41NO.7ComputerEngineeringJuly2015·专栏·文章编号:1000-3428(2015)07-0025-06文献标识码:A中图分类号:TP391基于相似性混合模型的蛋白质交互识别王宇伟,牛耘,魏欧(南京航空航天大学计算机科学与技术学院,南京210016)摘要:现有采用机器学习方法的蛋白质交互关系识别系统仅以单句为依据,并且存在标注数据缺乏导致训练集规模小的问题。为此,基于相似性混合模型提出一种新的蛋白质交互识别方法。采用基本的关系相似性(RS)模型做初始判断
2、,利用大规模文本计算单词特征间的相似性,在基本RS模型的基础上通过特征聚类方式引入单词相似性模型,从而建立一个混合模型。实验结果表明,该方法能够取得较高且较均衡的精确度和召回率,而单词相似性的引入又进一步提高了F值,并且其直接利用已有的交互信息,可避免额外的人工标注。关键词:蛋白质交互;关系相似性;单词相似性;K近邻分类;层次聚类中文引用格式:王字伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25—30,35.英文引用格式:WangYuwei,NiuYun,WeiOu.Identif
3、icationofProtein—proteinInteractionBasedonHybridSimilarityModel[J].ComputerEngineering,2015,41(7):25—30,35.IdentificationofProtein-proteinInteractionBasedonHybridSimilarityModelWANGYuwei.NIUYun.WEIOu(SchoolofComputerScienceandTechnology,NanjingUniversityofAeronautics
4、andAstronautics,Nanjing210016,China)【Abstract】Currentmachinelearning—basedProtein—proteinInteraction(PPI)identificationsystemsmakepredictionssolelyonevidencewithinasinglesentenceandsufferfromsmalltrainingset.Inthispaper,ahybridsimilaritymodel-basedapproachisproposedt
5、oaddresstheseissues.AbasicRelationalSimilarity(RS)modelisestablishedtomakeinitialpredictions.Wordsimilaritymatricesareconstructedusingacorpus—basedapproach.Aclusteringalgorithmisappliedtogroupwordsaccordingtotheirsimilarity.Theobtainedwordclustersareintroducedtotheba
6、sicRSmodeltObuildahybridmode1.ExperimentalresultsshowthatthebasicRSmodelachieveshigherandwell—balancedprecisionandrecall,andtheintroductionofthewordsimilaritymodelfurtherimprovestheF—score.ThisapproachmakesuseofknownPPIinformation.thusreleasestheburdenofmanualannotat
7、ion.【Keywords】Protein—proteinInteraction(PPI);RelationalSimilarity(RS);wordsimilarity;K—nearestNeighbor(KNN)classification;hierarchicalclusteringDOI:10.3969/j.issn.1000—3428.2015.07.005基于自然语言处理的蛋白质交互自动识别技术已成1概述为一项重要的研究内容。本文提出一种基于相似性蛋白质是生物细胞最重要的成分,它们通过彼混合模型的蛋白质交互识别方法,
8、将现有的PPI数此间的作用完成细胞中的大部分过程,蛋白质交互据库作为训练数据,以避免额外的人工标注负担,并(Protein—proteinInteraction,PPI)是生物学研究的重且充分利用大规模文本库资源,依据文本中丰富的要内容,也是解决大量医学难题的关
此文档下载收益归作者所有