基于遗传神经网络的启动子识别系统

基于遗传神经网络的启动子识别系统

ID:34571642

大小:155.93 KB

页数:4页

时间:2019-03-08

基于遗传神经网络的启动子识别系统_第1页
基于遗传神经网络的启动子识别系统_第2页
基于遗传神经网络的启动子识别系统_第3页
基于遗传神经网络的启动子识别系统_第4页
资源描述:

《基于遗传神经网络的启动子识别系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、生物医学工程学杂志2006;23(4)∶730~733JBiomedEng*基于遗传神经网络的启动子识别系统121熊清王远强李志良1(重庆大学生物工程学院,重庆400044)2(重庆大学化学化工学院,重庆400044)摘要将遗传算法与神经网络结合,用遗传算法优化神经网络的连接权值,建立遗传神经网络模型,并将其应用于真核生物蛋白编码基因启动子的识别中。实验结果表明:我们以此模型为基础构建的系统对训练集和测试集中的启动子序列均能有效识别,在训练集和测试集上的平均识别率分别为99%和97%,表明此算法用于启动子序列的识别可行且十分有效。关键词启动子识别遗传算法神经网络PromoterReco

2、gnitionUsingGeneticAlgorithmsandNeuralNetwork121XiongQingWangYuanqiangLiZhiliang1(CollegeofBioengineering,ChongqingUniversity,Chongqing400044,China)2(CollegeofChemistryandChemicalEngineering,ChongqingUniversity,Chongqing400044,China)AbstractAnewmodelisdevelopedtorecognizeeukaryoticpromotersequenc

3、esfromnon-promoterse-quencesbasedongeneticalgorithmsandneuralnetworkinthispaper.Experimentresultsdemonstratetheeffec-tivenessofthesystemtorecognizethepromotersequencesonthetrainingsetandonthetestset.Themeanrecog-nitionrateisashighas99%onthetrainingsetand97%onthetestset,whichshowsthealgorithmshasg

4、reatprospectapplicationinpromoterrecognition.KeywordsPromoterrecognitionGeneticalgorithmsNeuralnetwork启动子亚群的识别。因为这些启动子亚群受同一调1引言控机制的影响,其保守结合位点具有较高的保守性,转录是遗传信息流中的关键环节,而启动子是有利于其预测准确性的提高。相比较而言,基于内容决定RNA聚合酶II转录起始点和转录频率的关键的方法不需要深入了解转录的生物学意义,而仅根元件。因此,启动子的识别对转录机制的阐明以及整据启动子区域的核苷酸统计规律(如单核苷酸或核个基因组功能的注释都具有重要

5、作用。启动子的识苷酸联体的统计分布规律)与其它基因功能区域的别本质上是一个统计模式识别问题,有很多算法可不同来区分启动子和非启动子序列[3-4],由于基因组用于解决这个问题。现今使用的启动子预测算法大DNA中四种碱基的分布不是均匀的,存在区域特异致可分为两类,基于信号的和基于内容的。基于信号性,承载不同功能的DNA序列具有明显的碱基选择的预测方法主要是通过尝试识别TATA、CAAT、偏好,因此这种方法对于结构和功能都未知的序列INR以及其它转录因子结合位点等一些顺式作用预测有很大的适用意义。[1,2]元件来区分启动子和非启动子序列。该方法要求神经网络由于其强大的模式识别能力已被广泛对基因

6、转录起始的分子调控网络和调控机制有细致[5~7]应用于序列分析领域,但许多程序都是通过BP的了解。其预测的准确性有赖于基因表达调控基本学习算法对神经网络进行训练,而BP算法存在着训理论的发展,主要被用于具有组织或细胞特异性的练速度慢,易陷入局部最优和全局搜索能力弱等缺点。遗传算法(GeneticAlgorithms,GA)则是通过模*重庆应用基础研究基金资助项目(2001);重庆大学研究生创新基金资助项目(2003)拟自然遗传学机理和生物进化理论而形成的一种全通讯作者。E-mail:lisz2662@163.com局并行的、随机搜索方法。将遗传算法用于神经网络第4期熊清等。基于遗传神经

7、网络的启动子识别系统731权值的优化可以很好地克服BP算法的缺点,提高预息,提取关联特征,这会使神经网络的结构变得十分[8]测系统的性能。因此,本文尝试将遗传神经网络算复杂且增加学习的难度和降低网络的收敛速度。所法应用于真核生物蛋白编码基因启动子的识别中。以,为了降低算法的复杂度,需要对三联体编码形式该方法是基于内容的,序列特征提取时仅考虑启动作进一步处理。在这里我们采用序列中每一位置的子、外显子和内含子三个功能区域核苷酸三联体的三

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。