基因表达数据聚类分析算法研究和应用

基因表达数据聚类分析算法研究和应用

ID:36807634

大小:4.10 MB

页数:137页

时间:2019-05-15

基因表达数据聚类分析算法研究和应用_第1页
基因表达数据聚类分析算法研究和应用_第2页
基因表达数据聚类分析算法研究和应用_第3页
基因表达数据聚类分析算法研究和应用_第4页
基因表达数据聚类分析算法研究和应用_第5页
资源描述:

《基因表达数据聚类分析算法研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要随着荩闲芯片技术的广泛麻用,,奇生了海龟的肇冈表达数据。如何分析和处理这些数据,从中提取有用的生物学或医学信息,是基因:签片技术应用的关键和难点,其研究已成为后基因组时代的热点之一。聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞业型等进行综合研究,是目前基因表达数据分析的主要技术之一。本文针对摹因表达数据聚类分析中聚类算法和参数的选择、聚类结果的有效性评价和类数估计等具体问题,主要工作和创新点如下:1.首次采用具有外部标准的基因表达数据集,研究了基因聚类分析

2、中层次聚类、K.means聚类和SOMs等最为常用的算法对相似度和数据转换方式的选择,比较了各类算法的性能。结果表明:层次聚类宜以Pearson相关系数为相似度,并对数据进行行标准化转换;K—means聚类和SOMs则宜选择Euclidean距离准则和标准化对数转换的数据。并且,府尽黾避免使用甲连接层次聚类,K.means聚类与SOMs算法的性能显著优于层次聚类。2.研究了Silhouette指数、Dunn’S指数、Davies.Bouldin指数及FOM测量对基因聚类分析结果的确认能力。结果表明:Silhouette指数和

3、FOM测量能较好地反映聚类算法的性能和聚类结果的质量,Dunn’S指数冈其对噪声的高度敏感性不能直接用于基因聚类结果的确认,Davies.Bouldin指数的确认能力好于Dunn’S指数,但偏爱单连接聚类。3.对Silhouette指数、Davies.Bouldin指数、FOM测钴等函数的类敬估计能力进行r研究。结果表明:Silhouette指数和Davies—Bouldin指数估计确切炎数的正确率都比较低,难于实际应用;FOM测量的移j点位置只能粗略估计大敛的类数,并含有不确定性和主观性。定义了新的相对Silhouette

4、指数和相对Davies-Bouldin指数,以审’展现有Silhouette指数和Davies.Bouldin指数估计类数的能力。引入了类数估计专用函数一预测强度进行基因聚类分析中类数的估计,提高了类数估计的可靠性。4.针对高分辨j簪SOMs投影结果难于确定类边界的问题,采用K.means对SOMs训练后的网络单元聚类,实现了SOMs算法与K.means聚类的有机结合。采用SOMs与K.means相结合的聚类方法对酵母二次迁移全基因组表达数据进行了系统分析,得到了表达谱十分相似的基吲类,为未知基凼的功能预测提供了重要线索。关

5、键词:皋冈表达,聚类分析,聚类确认,层次聚类,K.均值聚类,自组织映射ABSTRACTWiththeextensiveapplicationsofDNAmicroarraytechnology,hugeamountsofgeneexpressiondatahavebeengenerated.Howtoanalyzeandhandlethesedata,diggingoutvaluablebiologicalandmedicalknowledge,hasbecomeabottleneckandhotspotintheresea

6、rchofpost—genomicage.ClusteranalysisisamajorexploratorytechniquetOgroupgeneswithrelatedfunctionsaccordingtothesimilaritiesintheirexpressionprofiles,helpfultounderstandgenefunction,generegulation,cellularprocesses,andsubtypesofcells.Aimingatthespecificproblemsinclus

7、teranalysisofgeneexpressiondata,thatis,selectionofclusteringalgorithmsandparameters,assessmentoftheclusteringresults,andpredictingthenumberofclusters,thefollowinginnovativeworkhasbeencarriedout.1.Theperformancesofseveralpopularclusteringalgorithmsforgeneexpressiond

8、ata.hierarchicalclustering,K—meansclusteringandself-organizingmaps,aswellastheirselectionsofsimilaritymetricanddatatransformation,werestudiedwith

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。