基于遗传算法的基因表达数据的K_均值聚类分析.pdf

基于遗传算法的基因表达数据的K_均值聚类分析.pdf

ID:52453207

大小:139.39 KB

页数:4页

时间:2020-03-27

基于遗传算法的基因表达数据的K_均值聚类分析.pdf_第1页
基于遗传算法的基因表达数据的K_均值聚类分析.pdf_第2页
基于遗传算法的基因表达数据的K_均值聚类分析.pdf_第3页
基于遗传算法的基因表达数据的K_均值聚类分析.pdf_第4页
资源描述:

《基于遗传算法的基因表达数据的K_均值聚类分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《上海生物医学工程》杂志2006年第27卷第3期·151·基于遗传算法的基因表达数据的K-均值聚类分析姜明宇马文丽郑文岭1.上海大学电子生物技术研究中心(上海200072)2.广州南方医科大学基因工程研究所(广州510515)【摘要】聚类算法在基因表达数据的分析处理过程中得到日益广泛的应用。本文通过把K-均值聚类算法引入到遗传算法中,结合基因微阵列的特点,来讨论一种基于遗传算法的K-均值聚类模型,目的是利用遗传算法的全局性来提高聚类算法找到全局最优的可能性,实验结果证明,该算法可以很好地解决某些基因表达数据的聚

2、类分析问题。【关键词】基因表达数据K-均值聚类遗传算法OntheK-meansClusteringoftheGeneExpressionDataBasedonGeneticAlgorithmJiangMingyuMaWenliZhengWenling1.BioelectronicsResearchCenterShangHaiUniversity(ShangHai200072)2.InstituteofGeneticEngineering,NanFangMedicalUniversity(Guangzhou510

3、515)【Abstract】Clusteringalgorithmshavabecomeincreasinglyimportantinanalyzingandprocessinggeneexpressiondata.Consideringthecharacteristicsofmicroarray,thepaperdiscussesak-meansclusteranalysismethodbasedonge-neticalgorithm,whichtakesk-meansalgorithmintogenetic

4、algorithm.Itaimsatincreasingtheprobabilitytofindglob-aloptimum,throughtrailandtesting,itturnsouttobeeffectivetosolvesomecluseranalysisproblemsofthegeneex-pressiondata.【KeyWords】GeneexpressiondataK-meansclusteringGeneticalgorithm1引言是一种易于实现且时空复杂度相对较小的方法,然基因芯片是

5、近10年来在生命科学领域迅速发而该算法本质上是一种局部搜索寻优法,它的迭代展起来的一项高新技术,它将分子生物学和微电子过程采用了一种所谓的爬山法来寻找最优解。因此技术相结合,在生命科学与信息科学之间架起一道该算法极易陷入局部极小值,而得不到全局最优解,桥梁,成为后基因组时代基因研究的重要技术之一。特别是在聚类数目较大的情况下,这一问题尤为突基因芯片技术使得人们可以同时监测成千上万个基出。针对这个问题,本文将K-均值算法引入到基因的表达水平,对不同发展阶段、组织类型、临床条于自然选择和群体遗传机理的遗传算法的进化

6、中,件及不同有机体的基因表达水平进行监测,从而有通过遗传算法来获取全局最优解,而利用K-均值助于理解基因功能与协助疾病诊断、确定治疗效果。方法来提高收敛速度。但是基因芯片实验所产生的大量复杂数据给研究者2K-均值聚类算法及分析带来了严峻的挑战。如果没有先进的信息处理方法K-均值聚类是一种分割聚类法。该算法是一与工具,人们很难利用基因微阵列技术所产生的大个非常简单但很常用的方法,在进行聚类分析前,首量数据。聚类方法是在基因组学研究领域应用最广先假定n个聚类对象可以分为k类,并确定每一类泛的技术之一,在众多的聚类算

7、法中,K-均值聚类的一个代表,通常成为重心和初始凝聚点,然后将每·152·《上海生物医学工程》杂志2006年第27卷第3期一个聚类对象与这些凝聚点进行比较,根据聚类对数据进行聚类分析的步骤如下:象与凝聚点的接近程度进行重新归类,将聚类对象(1)编码方案归至与其最接近的聚类中心的类别当中,也就是说编码操作和具体要解决的问题紧密相关,因此原先不在一类中的聚类对象也可以同过重新计算而是极为重要的一个步骤。在基于遗传算法的聚类问归为一类,而对于一些不能接近所有的初始凝聚点题中,通常有两种编码方案。设n个p维样本要分的聚

8、类对象也可以被归为一类,然后再计算每个所为k类,第一种方法是用S=(s1,s2,…,sn)表示解*得新聚类的聚类凝聚点,不断重复这一过程直到标(染色体)的结构,S为1n维的行向量,这里Si准测度函数开始收敛为止。算法步骤如下:①从n{1,2,…,k}为第i位的等位基因,当si=k时表示第个数据对象中任意选取k个对象作为初始聚类中i个样本属于第k类,例如,S=(1,2,1,2,2)表明将

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。