欢迎来到天天文库
浏览记录
ID:56930556
大小:306.50 KB
页数:56页
时间:2020-07-21
《生物统计学必备之 72-多元统计分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三章多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。例如,要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入、人均工农业产值、人均消费水平等等。在医学诊断中,要判断某人是有病还是无病、也需要做多项指标的体检,如:血压、心脏脉博跳动的次数、白血球、体温等等。总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的。因此每个指标可用随机变量来表示。多元分析也是一种处理大量数据的方法,与统计分析所不同的是:多元分析所处理的不
2、是统计意义下的样本,一般并不要求用它们去推断总体的特征,因而不需要随机取样,不必了解数据的分布性质,也不涉及显著性检验。从应用的角度看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可归结为两类问题:第一类是决定某一样品的归属问题,即称之为分类,判别分析和聚类分析就属于此内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系,常称之为排序。主成分分析和因子分析属于此内容。多元统计分析有很多的方法,我们只介绍几种在生物学中较常用的方法。第一节数据的类型可以把研究的对象叫
3、做实体,描述实体数量特征的各个信息项目称为属性(变量)。如在植物生态学研究中,实体可以是样方、标地、地段(林分)或群落等等。实体中观测的各个种的数据项目(如种的存在不存在、种的频度、盖度或重量等等),以及环境因素的数据项目(如样地坡度、雨量、日照、土壤深度、各种养分元素的含量等等)都是属性。由于属性多种多样,反映它们的数据类型就有所不同。比如,种的频度、雨量、日照时数等是数值;种的存在和不存在只有两种状态:土壤颜色可分为红、黑、黄等多种状态等等。所以需要考虑数据的类型,以及不同类型间的转化,最后将具有同一类型的数据排列成要求的格式。具体来讲,属性的类型分为三种:一、名称属性(
4、nominalattributes)有的属性只能描述为若干种不同的状态,每个实体具有其中一种状态。比如土壤的颜色(属性)可分为红、黑、黄等等:岩石可分为页岩、砂岩、玄武岩、花岗岩等等;植被可分为森林、草原、灌丛、苔原等等。这种属性的基本特点是,在作为数据处理时各个状态的地位是等同的,状态之间没有一定的顺序。由于它的各种状态可用不同名称表示,所以称这种属性为名称属性。1.二元属性名称属性的一种重要特别情况,是只具有两个状态。如物种的存在不存在,某昆虫的有翼无翼,某植物的有刺无刺,动物是雌是雄,等等。这种属性叫做二元属性,因为它往往是确定某种性质的有无,所以也称为定性属性。对二元
5、属性的两个状态常用两个数字0和1来表示。当属性是指某种性质的有无时,一般用0表示不具有该性质,1表示具有该性质,比如用0表示种不存在,1表示存在。当属性是指两个对立的状态时,0和l各表哪个状态可以随便指定,比如可用0表雄、1表雌,或者反之。2.无序多状态属性具有三个以上状态的名称属性,又称为无序多状态属性,以强调它的状态间无一定顺序。假设某属性有n个状态,我们可分别用数字1、2、3、……、n代表各个状态。比如岩石类型,可用1代表页岩,2代表砂岩,3代表玄武岩,4代表花岗岩。二、顺序属性(ordinalattributes)它与无序多状态属性一样,也只能分成多个状态。所不同的是
6、,现在的状态有确定的顺序,所以也称为有序多状态属性。例如某植物种的多度分为大量、常见、普遍、罕见和不出现五种状态;土壤酸碱度分为强酸性、弱酸性、中性、弱碱性、强碱性等状态;植物种子分成大、中、小三级,等等。显然各状态之间的顺序是有意义。与无序多状态属性—样,对顺序属性也没有理想的数据表示方法。用1、2、3、…、n依次表示各个状态,虽然数字间的大小差别反映了属性状态间的顺序关系,但是不能恰当地表示各状态间的差距。三、数量属性(quantitativeattributes)有许多属性是用数值数据来表示的,比如某植物种的频度、盖度和重量,土壤的深度、含水量,各养分元素的含量等等都是
7、这种属性,我们称之为数量属性,或定量属性。描述这种属性的数值可以直接用于通常数学上的各种运算和大多数的相似系数计算。第二节数据的处理一、数据的简缩去除极大或极小的数据二、数据的转换将原始数据通过运算转化为新值,有多种方法,最常用的有:对数转换、平方根转换、立方根转换、倒数转换、角度转换、概率转换等。三、数据的标准化用数量数据时,由于不同属性的量纲不同,可能有的属性数值很大,有的又很小。这样在计算两实体间的相似系数时,往往突出了大数值属性的作用而压低了小数值属性的作用。数据标准化是为克服这种困难的一类方法
此文档下载收益归作者所有