欢迎来到天天文库
浏览记录
ID:36909678
大小:1.53 MB
页数:72页
时间:2019-05-10
《《聚类分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、聚类分析YuanKehong2011-03-312对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424什么是聚类分析3我们直观地来看,计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236计算
2、1号和3号得分的离差平方和为482,由此可见一般,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?什么是聚类分析44分析儿童的生长期。有如下的资料是1-11岁的男孩平均每年的增重:问男孩的发育可分为几个阶段。年龄1234567891011增加重量(公斤)9.31.81.91.71.51.31.42.01.92.32.1什么是聚类分析5Alizadehetal.,Nature403:503-11,20006基因芯片流程(一)1.实验设计2.样品制备(指mRNA或总RNA样品,包括对照组和实验组
3、)3.芯片制备(包括PCR,纯化,点样等步骤)4.芯片杂交(将mRNA或总RNA分别进行逆转录生成cDNA,在此步骤中将对照组和实验组cDNA分别标记CY3和CY5荧光信号)5.芯片扫描(采用激光扫描仪,分别用532nm和635nm波长激光扫描芯片,对于每张芯片,得到CY3和CY5通道两幅图象)7基因芯片流程(二)6.图象处理(采用专门软件,对图象进行分析,提取每个点上的数字信号),得到原始数据表。7.数据校正和筛选(对cy5或cy3信号进行校正,消除实验或扫描等各环节因素对数据的影响,同时利用筛选规则对数据中的“坏点”,“小点”,“低信号点”进行筛选,并
4、作标记。)8.差异表达基因的确定(采用ratio值对差异基因进行判断,或采用统计方法如线性回归、主成分分析、调整P值算法等对差异基因进行统计推断)9.生物信息学分析(如cluster算法、差异基因的同源性比对,差异基因的相关文献检索等)8基因芯片应用基因表达检测特异性相关的基因:差异表达的基因基因功能研究健康状况的检测毒理学研究药物作用机制的研究定位克隆基因突变和多态性检测确定重叠群克隆的排序9聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司
5、的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。什么是聚类分析?簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;11具体
6、例子基因表达数据通常用矩阵(aij)保存,矩阵第i行对应于第i个基因,第j列对应于第j个样本,而矩阵的每个元素aij记录了第i个基因在第j个样本中的mRNA表达水平。(1)用基因表达数据发现新的(未知的)肿瘤类型即无监督学习;(2)将肿瘤归到已知癌症类别中,即有监督学习;(3)指明哪些基因能刻划出不同的肿瘤类型,即特征选择。12聚类类型Exclusive:只属于某类.Overlapping:可以同时属于多类.OverlappingclustersExclusiveclusters131.样本点之间按什么刻画相似程度2.样本点和小类之间按什么刻画相似程度3.
7、小类与小类之间按什么来刻画相似程度思考:14一、变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。相似系数和距离15(2)顺序尺度。指标度量时没有明确
8、的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并
此文档下载收益归作者所有