欢迎来到天天文库
浏览记录
ID:26926955
大小:946.01 KB
页数:68页
时间:2018-11-30
《《多元统计分析》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十一章多元统计分析1什么是多元统计分析?能够分析多个指标、多个变量集合之间关系以及这些变量个体之间关系的统计方法。2可归结为两类问题:1)解决研究对象的归属问题聚类分析、判别分析2)降低变量维数、变量独立性主成分分析、因子分析、典型相关分析3第一节聚类分析4线粒体夏娃学说出自2个实验室的研究成果,即埃摩里大学的道格拉斯·华莱士(Douglas Wallace)和他的同事的实验室和伯克利加利福尼亚大学的阿伦·威尔逊(Allan Wilson)和他的同事的实验室,他们仔细检查细胞内叫做线粒体的细小器官中的遗传物质脱氧
2、核糖核酸(DNA)。当人类新的胚胎形成,胚胎细胞的线粒体只来自卵子,因此线粒体DNA只由母系遗传。夏娃学说5由于一些技术上的原因,线粒体DNA特别适合经过一代代的追溯去探究进化的过程。由于DNA是通过母系遗传的,因而追溯过程最后会导向一位单一的女性祖先。按照分析的结果,现代人可以追溯其祖先到大概15万年前住在非洲的一个女人。6「夏娃学说」引起了许多争议,但是随著遗传学技术的不断成熟,这些争议陆陆续续地尘埃落定。运用遗传学技术研究人类群体的进化,就是利用一些遗传标记来追溯人类群体起源迁移事件发生的大致时间及路线。7目
3、前研究早期人类进化和迁移最理想的遗传标记,公认是Y染色体拟常染色体非重组区段的SNP标记(NRY)。这是由于人体内只存在一份父系遗传Y染色体非重组区,可以有效地排除交换重组的混血干扰;同时SNP突变率低更能稳定地遗传,可以忠实地记录进化事件;再由于以单倍体存在的Y染色体,其有效群体大小只有常染色体位点的1/4,所以易产生人群特异性的单倍型。82001年斯坦福大学的昂德希尔(PeterA.Underhill)等人利用变性高效液相层析技术(DHPLC),分析得到了218个Y染色体非重组区(NRY)位点构成的131个单倍
4、型,在对全球1,062个代表性个体考察结果显示明显的群体亲缘关系。这是目前遗传学技术发展的可用於人类进化和起源研究最多的遗传标记,通过对这218个NRY在全世界各地区代表群体中多态性分布清晰展示了现代人类的种群大致聚类树。9Y染色体非重组区单倍型系统树2001,StanfordUniversity,PeterA.Underhill10很显然,最早的分支都发生在非洲人群中,而後再分出欧洲和亚洲。美洲和澳洲的分化都发生在亚洲的分化之下。这说明人类从非洲人群分出欧洲和亚洲人群,美洲和澳洲人群又起源於亚洲人群。这就是与「夏
5、娃学说」相印证的「亚当学说」。根据突变的速率计算出来的非洲人群分化出欧亚人群的大致时间是十多万年。11p个特征(指标、变量)n个样本样本相似矩阵特征相似矩阵§1、样本表示与相似性系数Q矩阵→Q型聚类R矩阵→R型聚类12如何计算相似矩阵的矩阵元?对于样本中的两个同维向量:131、数据的变换处理所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。14(1)中心化变换中心化变换是一种坐标轴平移处理方法,每列数据之和为0,这是一种很方便地计
6、算方差与协方差的变换。15(2)极差规格化变换经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0~1之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。16(3)标准化变换经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。17(4)对数变换对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:(5)指数变换18用来衡量样本间(或特征间)相似性关系的两种系数:1)相似系数2)相
7、异系数191)相似系数相似系数:衡量全部样本或全部变量中任何两部分相似程度的指标。性质越接近的变量或样品,它们的相似系数越接近于1或–l;而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。20(1)内积系数:适用范围:量纲相同数据相差不大21结论:夹角越小,cosα的值越接近1,两向量越相似。(2)夹角余弦:22(3)方差-协方差(variance-covariance)对原始资料进行标准化:对内积的中心化处理。23(4)相关系数(correlationcoefficient)是离差
8、标准化后,两向量的内积。思考:夹角cos与相关系数的关系?24(5)指数相似系数:为第k个变量的方差指数相似系数消除了不同变量的单位不同的影响,也消除了不同变量的自身变异不同的影响。25相似系数性质:⑴当且仅当Xi=aXj时,cij=1,其中Xi和Xj分别是第i样本和第j样本的观察值向量,a≠0为常数;⑵对于一切Xi和Xj,
9、cij
10、≤1;⑶对于一切Xi和X
此文档下载收益归作者所有