欢迎来到天天文库
浏览记录
ID:36604060
大小:1.86 MB
页数:90页
时间:2019-05-09
《R语言入门数据特征的描述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、实验目的实验内容学习如何应用R软件描述数据特征1、方法简介2、应用实例3、实验作业第八讲数据特征的描述§3数据分布特征的测度§3.1集中趋势的测度§3.2离散程度的测度§3.3偏态与峰态的测度学习目标1.集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合偏态与峰态的测度方法用R计算描述统计量并进行分析数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众数中位数
2、均值离散系数方差和标准差峰态四分位差异众比率偏态§3.1集中趋势的测度一.分类数据:众数二.顺序数据:中位数和分位数三.数值型数据:均值四.众数、中位数和均值的比较集中趋势(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据众数(mode)出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用
3、于顺序数据和数值型数据众数(不唯一性)无众数原始数据:10591268一个众数原始数据:679877多于一个众数原始数据:252828423636分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可
4、乐”这一品牌,即Mo=可口可乐顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0中位数(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之
5、和最小,即中位数(位置的确定)原始数据:顺序数据:顺序数据的中位数(例题分析)解:中位数的位置为300/2=150从累计频数看,中位数在“一般”这一组别中。因此Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的中位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:7507808509601080125
6、0150016302000位置:123456789中位数1080数值型数据的中位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910四分位数(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数(位置的确定)原始数据:顺序数据:顺序数据的四分位数(例题分析)解:QL位置=(300)/4
7、=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:
8、123456789数值型数据的四分位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910均值(mean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据简单均值与加权均值(simplemean/we
此文档下载收益归作者所有