欢迎来到天天文库
浏览记录
ID:52443119
大小:307.69 KB
页数:4页
时间:2020-03-27
《microRNA计算识别中的模式识别技术.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第20期计算机技术与发展VoI.20No.62010年6月∞ⅥERTECHNOlYANDDEVELOPMENTJun.2010microRNA计算识别中的模式识别技术孙秋凤(南京师范大学泰州学院信息与科学技术系,江苏泰州225300)摘要:MicroRNAs(rraRNAs)是一种大小约21-23个碱基的单链RNA小分子,对多种生物学过程起调控作用,它们主要参与基因转录后水平的调控,能有效地抑制相关蛋白质的合成,与生物体的生长发育和某些疾病的发生密切相关。对n1i.croRNAs(rraRNAs)的研究正在不断增加,计算识别为分子生物学实验寻找
2、新microRNA提供一组高质量的候选序列。文中从模式识别的角度审视现有的计算识别技术,分析和比较各种方法的特点后发现基于支持向量机的识别方法已经能在识别精度上得到很好的效果,这也是mieroRNA识别技术将来发展的主要方向。关键词:microRNA;支持向量机;生物信息学;核函数中图分类号:TP391.4;Q811.4文献标识码:A文章编号:1673—629X(2010)06—0o97—04PatternRecognitionTechnologyforMicroRNAIdentificationSUNQiu—feng(Departmentof
3、InformationandTechnology,TaizhouCollege,NanjingNormalUniversity,Taizhou225300,China)Abstract:MieroRNAs(miRNAs)are~22ntlongnon—codingR/gAsthatarederivedfromlargerhairpinRNAprecursorsandplayim·portantregulatoryrolesinbothanimalsandplants.TheresearchofmiRNAsiscontinuallyincreas
4、ingafterthefirstmiRNAswerediscov·eredusingexperimentalmethods.SinceexperimentalmiRNAidentificationremainstechnicallychallengingandincomplete,thiscallsforthedevelopmentforcomputationalapproachestocomplementexperimentalapproachestOmiRNAgeneidentification.Attemptstolookbackthee
5、xistingcomputationalapproachesandcomparetheiradvantages.Finallyfindthatamongalthepotentialmeans.theonebasedonSVMhasbetterprecisionandthat’Swhythismethodhasbeo3nletheleadingme~LSLil-eformicroRNAidentificationinthefuture.Keywords.micmRNA;supportvectormachine;bioinformaties;kem
6、elfunctionO引言早期传统寻找miRNA的方法主要依赖于分子克miRNA是一些长度约为22nt的非编码调控RNA隆,此类方法一般都步骤烦琐、周期性长、工作量大,由家族,它有3个显著的特点:·于目标不明确,效率较低且实验费用昂贵。因此,研究(1)广泛存在于真核生物中,是一组不编码蛋白人员展开了计算方法的研究以弥补实验方法的不足,质的短序列RNA,本身并不具有开放阅读框;基于机器学习的计算方法已经成为发现新的microR.(2)通常的长度为2024nt,但在3’端可以有1NA的一个重要手段,为实验发现提供候选micmRNA~2个碱基的长度变
7、化;基因。(3)成熟的miRNA5’端有一磷酸基团,3’端为羟基。1miRNA计算识别方法在线虫、果蝇、小鼠和人等物种中已经发现的数百1.1基于决策树的计算识别方法个miRNAs中的多数具有和其他参与调控基因表达的这类识别方法中较为成功软件有:MiRscan[1]和分子一样的特征,提示miRNAs在高级真核生物体内miRseekerL2j。这类方法大致的流程是从某一物种已对基因表达的调控作用可能和转录因子一样重要。知miRNA中提取相关特征,建立模型,从大量的数据集中筛选出候选miRNA,然后对其进行打分,若超过某个阈值则认为此序列可归于这一类
8、。其中提取特征收稿日期:2009—09—30;修回日期:2009一l2—22基金项目:国家自然科学基金(60275007)并建立模型的操作从模式识别角
此文档下载收益归作者所有