基于相似性混合模型的蛋白质交互识别-论文.pdf

基于相似性混合模型的蛋白质交互识别-论文.pdf

ID:53029793

大小:511.53 KB

页数:7页

时间:2020-04-14

基于相似性混合模型的蛋白质交互识别-论文.pdf_第1页
基于相似性混合模型的蛋白质交互识别-论文.pdf_第2页
基于相似性混合模型的蛋白质交互识别-论文.pdf_第3页
基于相似性混合模型的蛋白质交互识别-论文.pdf_第4页
基于相似性混合模型的蛋白质交互识别-论文.pdf_第5页
资源描述:

《基于相似性混合模型的蛋白质交互识别-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第41卷第7期计算机工程2015年7月VO1.41NO.7ComputerEngineeringJuly2015·专栏·文章编号:1000-3428(2015)07-0025-06文献标识码:A中图分类号:TP391基于相似性混合模型的蛋白质交互识别王宇伟,牛耘,魏欧(南京航空航天大学计算机科学与技术学院,南京210016)摘要:现有采用机器学习方法的蛋白质交互关系识别系统仅以单句为依据,并且存在标注数据缺乏导致训练集规模小的问题。为此,基于相似性混合模型提出一种新的蛋白质交互识别方法。采用基本的关系相似性(RS)模型做初始判断

2、,利用大规模文本计算单词特征间的相似性,在基本RS模型的基础上通过特征聚类方式引入单词相似性模型,从而建立一个混合模型。实验结果表明,该方法能够取得较高且较均衡的精确度和召回率,而单词相似性的引入又进一步提高了F值,并且其直接利用已有的交互信息,可避免额外的人工标注。关键词:蛋白质交互;关系相似性;单词相似性;K近邻分类;层次聚类中文引用格式:王字伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25—30,35.英文引用格式:WangYuwei,NiuYun,WeiOu.Identif

3、icationofProtein—proteinInteractionBasedonHybridSimilarityModel[J].ComputerEngineering,2015,41(7):25—30,35.IdentificationofProtein-proteinInteractionBasedonHybridSimilarityModelWANGYuwei.NIUYun.WEIOu(SchoolofComputerScienceandTechnology,NanjingUniversityofAeronautics

4、andAstronautics,Nanjing210016,China)【Abstract】Currentmachinelearning—basedProtein—proteinInteraction(PPI)identificationsystemsmakepredictionssolelyonevidencewithinasinglesentenceandsufferfromsmalltrainingset.Inthispaper,ahybridsimilaritymodel-basedapproachisproposedt

5、oaddresstheseissues.AbasicRelationalSimilarity(RS)modelisestablishedtomakeinitialpredictions.Wordsimilaritymatricesareconstructedusingacorpus—basedapproach.Aclusteringalgorithmisappliedtogroupwordsaccordingtotheirsimilarity.Theobtainedwordclustersareintroducedtotheba

6、sicRSmodeltObuildahybridmode1.ExperimentalresultsshowthatthebasicRSmodelachieveshigherandwell—balancedprecisionandrecall,andtheintroductionofthewordsimilaritymodelfurtherimprovestheF—score.ThisapproachmakesuseofknownPPIinformation.thusreleasestheburdenofmanualannotat

7、ion.【Keywords】Protein—proteinInteraction(PPI);RelationalSimilarity(RS);wordsimilarity;K—nearestNeighbor(KNN)classification;hierarchicalclusteringDOI:10.3969/j.issn.1000—3428.2015.07.005基于自然语言处理的蛋白质交互自动识别技术已成1概述为一项重要的研究内容。本文提出一种基于相似性蛋白质是生物细胞最重要的成分,它们通过彼混合模型的蛋白质交互识别方法,

8、将现有的PPI数此间的作用完成细胞中的大部分过程,蛋白质交互据库作为训练数据,以避免额外的人工标注负担,并(Protein—proteinInteraction,PPI)是生物学研究的重且充分利用大规模文本库资源,依据文本中丰富的要内容,也是解决大量医学难题的关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。