欢迎来到天天文库
浏览记录
ID:43489326
大小:602.34 KB
页数:4页
时间:2019-10-08
《双聚类的研究与进展》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、ReviewandComment双聚类的研究与进展张敏。戈文航(大连大学信息工程学院计算机系,辽宁大连116622)摘要:介绍双聚类的概念和目的,对近年提出的具有代表性的算法进行综述,根据优化方法和搜索过程对这些算法分类归纳,并对算法在一些方面表现的优势和存在的不足进行研究。关键词:数据挖掘;双聚类算法;基因数据表达中图分类号:TP301文献标识码:A文章编号:1674—7720(2012)04—0004—03TheresearchandadvancesonbiclusteringZhangMin,GeWenhang(CollegeofComputerandInformatio
2、nEngineering,DalianUniversity,Dalian116622,China)Abstract:Thispaperfirstlyintroducedtheconceptofbiclusterandpurpose,thenreviewedtherepresentativealgorithmspro—posedinrecentyears,groupedthesealgorithmsaccordingtooptimizationandsearchprocess,anddidsomeresearchonthealgo—rithmaboutperformanceadv
3、antagesandsho~agesinsomeaspects.Keywords:datamining;biclusteralgorithms;geneexpressiondata近年来随着基因芯片和DNA微阵列等高通量检测H(I丽1嘞-ai,j-技术的发展,产生了众多的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类其中,=,=荟,=丽1,方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部=Ⅱf,,=分别为行平均值、列平均值和子矩IjIiE,IJI∈J信息中。
4、为了更好地在数据矩阵中搜索局部信息,人们阵(,,的平均值。对于6≥0,如果子矩阵A,J满足H(I,提出双聚类概念,目前这种聚类方法得到了越来越广泛≤6,则称该子矩阵为一个6一bicluster。的应用。双聚类的目的就是在基因表达数据矩阵中寻找满本文对双聚类提出以来的研究成果进行综述。从基足条件的子矩阵,使得子矩阵中基因集在对应的条件集本思想、性能和双聚类结果评价等角度总结重要的双聚上表达波动一致,反之亦然。不同的双聚类算法采用不类算法类型。同的方式度量结果质量,所能找到的双聚类类型是有很1双聚类概念大差别的。目前较广泛的模型有四种:矩阵等值模型、矩自从基因芯片技术产生以来,大量
5、的生物数据需要阵加法模型、矩阵乘法模型和信息共演变模型。图1显分析,这些数据大多规格化后以矩阵形式表示和存储。示了这几种模型。基因芯片数据中隐藏了大量有用的局部模式,为寻找这2双聚类算法分类些信息,CHENGandCHURCH于2000年提出了双聚类2.1基于传统聚类的双聚类(bicluster)概念⋯,并给出了双聚类的定义:这是一类最基本的双聚类方法,以传统聚类为双聚定义1:设为基因集,y为对应的表达条件集。嘞类的基础,基本思想是通过传统聚类分别对矩阵的行和为基因表达数据矩阵A中的元素。设,、I,分别为、l,列进行聚类,然后合并聚类结果。具有代表性的是的子集,则(,,对指定的
6、子矩阵AfJ具有以下平均平方GETZG等人[21提出的耦合双向聚类(Coupledtwo—way残基:elustering)算法。算法开始于初始矩阵,创建两个集合,一个只包含所有行,另一个只包含所有列。对这两个集合《微型机与应用》2012年第31卷第4期4ReviewandCOmment局部最优。为克服贪心策略陷入局部最优的缺陷,一些1.O1.O1.01.01.02.03.O4.0算法首先采用贪心策略寻找双聚类,然后对找到的双聚1.O1.O1.O1.01.02.03.O4.O1.O1.01.O1.O1.02.03.04.0类再应用智能优化算法以得到较理想的结果。如STE.1.0
7、1.01.01.01.O2.03.04.0FAN等人『6]对CC算法进行了改进,即在添加删除过程(a)等值模型(b)加法模型中好的行列有较大保留概率,反之较小,迭代得到的结果作为种子,应用进化算法优化产生较理想的双聚类。1.02.00.51.5S1S2S3S42.3双聚类穷举策略2.04.01.03.OS1S2S3S44.08.O2.06.0S1S2S3S4严格地说,采用穷举方式寻找双聚类是不现实的。3.O6.01.54.5S1S2S3S4原数据矩阵的子矩阵数量通常都异常庞大,所以采用穷举策
此文档下载收益归作者所有