基于多数据域描述的转录因子结合位点识别

基于多数据域描述的转录因子结合位点识别

ID:16395707

大小:571.50 KB

页数:7页

时间:2018-08-09

基于多数据域描述的转录因子结合位点识别_第1页
基于多数据域描述的转录因子结合位点识别_第2页
基于多数据域描述的转录因子结合位点识别_第3页
基于多数据域描述的转录因子结合位点识别_第4页
基于多数据域描述的转录因子结合位点识别_第5页
资源描述:

《基于多数据域描述的转录因子结合位点识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第23卷第2期计算机应用与软件Vol.23,No.22006年2月ComputerApplicationsandSoftwareFeb.2006收稿日期:201005-017-0615。国家自然基金项目(60903075),上海市重点学科项目(B114)。陈鸣,硕士生,主研领域:机器学习,生物信息学。基于多数据域描述的转录因子结合位点识别陈鸣1 薛慧君2 熊赟1 朱扬勇11(复旦大学计算机科学技术学院 上海200433)2(内蒙古电子信息职业技术学院计算机科学系 呼和浩特010011)摘 要转录因子结合位点的识别对于理解转录调控机制起着重要作用,也是后基因组时代面临的

2、巨大挑战之一。本文提出了一个基于多任务学习的转录因子位点的识别方法。首先,建立了一个基于多任务学习理论的多数据域描述模型,然后,结合核方法设计转录因子结合位点多分类识别算法。最后,对取自于TRANSFAC数据库的真实数据进行交叉验证测试,。实验结果表明该方法能充分地利用稀缺的训练样本,有效地捕获不用同类别间的联系,从而获得了较高的预测准确率。关键词多任务学习 转录因子结合位点 多数据域描述 核方法TranscriptionFactorBindingSitesRecognitionbyMultipleDataDomainDescriptionChenMing1XueHu

3、ijun2XiongYunYunXiong1ZhuYangyong11(SchoolofComputerScience,FudanUniversity,Shanghai200433,China)2(DepartmentofComputerScience,InnerMongoliaElectronicInformationVocationalTechnicalCollege,Hohhot010011,China)AbstractThispaperpresentsamulti-tasklearningapproachtotheproblemofTranscriptionF

4、actorBindingSites(TFBS)recognition.Firstly,anewmultipledatadomaindescriptionmodelwasestablished;itwastheoreticallyfoundedonthenewkernel-basedmulti-tasklearningformulationoflearningmultipletaskssimultaneouslyinordertocapturesharedstructuresamongtasks.Then,themodelwasnaturallycasttothecas

5、eofTFBSrecognitionwithkernelmethods.Finally,realdatasetwasretrievedfromTRANSFACdatabasetovalidatetheeffectivenessoftheproposedmethod.Theexperimentalresultindicatedthatourmulti-tasklearningapproachcansignificantlyimprovethepredictionaccuracybyvirtueofusingtrainingexamplesfrommultipleclas

6、sesasawholeandmeanwhilecapturingtheirinter-classrelatedness.KeywordsMulti-taskLearningTranscriptionFactorBindingSitesMultipleDataDomainDescriptionKernelMethods第2期陈鸣等:基于多数据域描述的转录因子结合位点识别方法70引 言在分子生物学领域,理解转录调控机制是后基因组时代重大挑战之一。达到这一目标的重要步骤是转录因子结合位点(TranscriptionFactorBindingSites:TFBS)的识别。转录

7、因子结合位点是基因上游启动子区域长度为5~15bp的短序列片段,被转录因子结合以调控下游基因。通过生物学试验检测TFBS的方法由于开销大、耗时长等缺点,不适合处理海量数据。因此,越来越多的计算识别方法被提出用于初选待测位点。通常情况下,一个转录因子结合位点可以被一个或多个转录因子结合,而相关研究表明这种结合具有较高的特异性。因此,在计算分子生物学领域,TFBS的识别问题可看作是视为一个多类别模式分类问题,即给定一个未知样本,判定它可能被那一类或哪几类转录因子结合。模式分类的方法有很多种,常见的有支持向量机(SupportVectorMachine,S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。