20110801303计科三班吕良

20110801303计科三班吕良

ID:33424703

大小:72.50 KB

页数:4页

时间:2019-02-25

20110801303计科三班吕良_第1页
20110801303计科三班吕良_第2页
20110801303计科三班吕良_第3页
20110801303计科三班吕良_第4页
资源描述:

《20110801303计科三班吕良》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一次作业1、假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。a.该数据的均值是多少?中位数是什么?b.该数据的众数是什么?讨论数据的模态(即二模、三模等)。c.该数据的中列数是多少?d.你能(粗略地)找出该数据的第一个四分位数(1Q)和第三个四分位数(3Q)吗?e.给出该数据的五数概括。f.绘制该数据的盒图。g.分位数-分位数图与分位数图有何不同?a.均值=(13+15+16+16+19+

2、20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即25。b.众数有两个:25和35,因此是二模c.最大数和最小数的均值=(70+13)/2=41.5d.第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以:Q3=35e.最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。f..盒图g.分位数-分位数

3、图与分位数图有何不同?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2、在数据分析中,重要的选择相似性度量。然而,不存

4、在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:a.把该数据看做二维数据点。给定一个新的数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于查询点的相似性对数据库的点排位。 X1X2X3X4X5欧几里得距离0.140.670.280.220.61曼哈顿距离0.20.90.40.30.7上确界距离0.10.60.20.20.6余弦相似性0.99990.99570.99990.99900.9653所以,排序分别为:欧几里得距离

5、:x1,x4,x3,x5,x2曼哈顿距离:x1,x4,x3,x5,x2上确界距离:x1,x4,x3,x5,x2(x2=x6,x3=x4)余弦相似性:x1,x3,x4,x2,x5b.规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。归一化后的数据: A1A2X0.65850.7526X10.66160.7498X20.72500.6887X30.66440.7474X40.62470.7809X50.83210.5547重新计算欧几里得距离 X1X2X3X4X5欧几里得距离0.140.670.280.220.61排序为:x1,

6、x3,x4,x2,x53、使用如下方法规范化如下数组:200,300,400,600,1000a.令min=0,max=1,最小—最大规范化。原始数据2003004006001000规范化00.1250.250.51b.z分数规范化。原始数据2003004006001000规范化-1.06-0.7-0.350.351.78c.z分数规范化,使用均值绝对偏差而不是标准差。原始数据2003004006001000规范化-1.06-0.7-0.350.351.78d.小数定标规范化。原始数据2003004006001000规范化0.020.030.040.060.14、假

7、设12个销售价格记录已经排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215使用如下各方法将它们划分成三个箱。a.等频(等深)划分。Box1:5,10,11,13Box2:15,35,50,55Box3:72,92,204,215b.等宽划分。Box1:5,10,11,13,15,35,50,55,72Box2:92Box3:204,215c.聚类。Box1:5,10,11,13,15Box2:35,50,55,72,92Box3:204,215

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。