基于基因表达缺失数据填充算法研究

基于基因表达缺失数据填充算法研究

ID:34822075

大小:2.58 MB

页数:60页

时间:2019-03-11

基于基因表达缺失数据填充算法研究_第1页
基于基因表达缺失数据填充算法研究_第2页
基于基因表达缺失数据填充算法研究_第3页
基于基因表达缺失数据填充算法研究_第4页
基于基因表达缺失数据填充算法研究_第5页
资源描述:

《基于基因表达缺失数据填充算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖南大学硕士学位论文基因表达缺失数据填充算法研究姓名:杨涛申请学位级别:硕士专业:计算机软件与理论指导教师:骆嘉伟20051212硕士学位论文摘要DNA微阵列技术使人们可以嘲时观测成千上万个纂圜的表达水平,对英数据的分拆已成为生物箔意学研究的焦点。但是,在基因表达数据产生过程中存在一些因素导致获得的数据中包含有大量的缺失值,为后续的数据分辨工馋带来了极大的困难,甚至往分析结果出现严重错误。因此,綦闲表达缺失数据的填充是生物数据挖掘过程中的重要联处理步骤,也是磷究重点之~。基于K个最近邻属的填充算法是基因表达数据中经典豹缺失值填充算法。但算法没有

2、考虑基豳表达数据闷的相关往,本文提出~种基于马氏距离的缺失值填充算法。该算法使耀考虑了数撂阕鞠关性的马氏距离选择邻滕基阑,并秘瘸Shannon信息熵确定更为合理的邻耪基因权熏系数,有效地提高了对缺失数据的填充准确度。模糨C一均镶算法是聚类分析中广泛使用的聚类方法,在綦因表达数据分析中邈肖较多的应用。本文利用模糊C.均傻舞法能很好蟪处理数摄闻的重爨性和稠关性的特点,将它应瘸到基戳表达数据的缺失阀题处理中,提出了基于模糊c.均值的填充算法。算法针对不嗣的数据集,给出了动态确定聚类参数的方法,然后对经过襁始填充的嚣究墼基霾表达数蠡逶行聚类分橱,利瘸聚

3、类绪累对缺失数据进行估计和填充。滚算法自适应地确定聚类参数,增强了聚类的蠢效性,从两提离了填充结果的芷确率。模糊C.均傻算法受初始条件影响较大,在迭代过程中察易陷入局部极小。雕此,论文在上述算法的基础上,铡用迭代局部搜索策略来鹪决局部最优闻题,并照使用耨的聚类有效牲指标优化聚类结槊,较大禚菠上改藩了聚类结巢,提寓了缺失傻估计的准确度。实验结采袭明填充准确度较原算法宥较大的提赢。关键词:基因表达数据;缺失僮;马氏距离;模糊C.均镶算法;迭代描懿搜索基因袭述缺失数据填充爨法亳拜究Abs毛ractDNAmicroarraytechnologyallo

4、wsformonitoringofexpressionleVelsofthous鑫ndsofg。nessimult疆neouslyunderdef孙rentconditions.Howtoanalysenledataisoneofme量lotpfoblomsinbioinformaticssciences.HoweVer,owingtOVa“ousfeasons,gen。expressio

5、l拄licfoarrayexperilnentsoftenproducemuitiplemissingvalueswhichmayaffect畦ownstr

6、eamanalysis+Ma珏yalgorithmsforgeneexpressionana}ysishavegreatdif葑cultyinthetreaInentoffnissiIlgValHesandlnayprodueeincofrectresultsbecauseofafewmissingvalues.T量lereforemissingValueestimationfbrgen。expressiondataissign濂cantandiInport疆ntpretfeat毪lentprocessinbioinfbrnlaticsdata

7、fnining.Theweightedbasedo摊K一娃earestneighbors蠢nputationisaclassiealalgorlthmfofgeneexpressiondata.ButitdoesnOttakeintocountcorfelationsbet、Veengenes.{nthispapef,anewinlputat主onf稳ethodbasedonM8halanobisdlstanceisproposedtoestimatemissingvaluesinthegeneexpressiondatasets.T量lene

8、arestneighborsareehosenonthebaseofMa圭laia魏obisdistancesbetweenge熊es,whichutilizethecorrelationsbetweengene靶andthenwhoseweightfactorsaredeterminedbytheShannenentropy.Thisalgorit量l{ncanselectmorecoffectlynearestneig}如oringgenesandcorrespondingweightfactorssothatithasmoreaccura

9、teestimationofmissingmicroarrayd戳a1lnderavadeiyofcond{tions.TheFuzzyC—Means

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。