数据挖掘作业63737

数据挖掘作业63737

ID:41736250

大小:62.03 KB

页数:10页

时间:2019-08-31

数据挖掘作业63737_第1页
数据挖掘作业63737_第2页
数据挖掘作业63737_第3页
数据挖掘作业63737_第4页
数据挖掘作业63737_第5页
资源描述:

《数据挖掘作业63737》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、作业作为平时成绩(占20%)的衡量标准:一共有24道题,希望大家认真做,不收打印版!1•什么是数据挖掘?在你的冋答屮,针对以下问题:(a)它乂是一种广告宣传吗?(b)它是一种从数据库、统让学和机器学习发展的技术的简单转换吗?(c)解释数据库技术发展如何导致数据挖掘。(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。2.数据仓库和数据库有何不同?有哪些相似之处?3.简述以下高级数据库系统和应用:对象——关系数据库、空间数据库、文木数据库、多媒体数据库、流数据和万维网。4.定义下列数据挖掘功能:特征化,区分、关联和相关分析、分类、预测、聚类和演变分析。5.区分和分类的差别是什么

2、?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处。6.解释为什么概念分层在数据挖掘中是冇用的。7.描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。你认为哪种方法最流行,为什么?&试描述关丁•数据挖掘方法和用户交互问题的三个数据挖掘挑战°9.与挖掘少量数据札I比,挖掘海量数据的主要挑战是什么?10.数据的质量可以用精确性、完整性和一致性來评估。提出数据质量的两种其他尺度。11•假设给定的数据集的值已经分组为区间。区间和对应的频率如下:年龄频率年龄频率1〜52005~1545015〜2030020〜50150050〜80

3、70080〜11044计算数据的近似中位数值。12.假定用于分析的数据包含属性age。数据元组的age值以递增序为:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(小该数据的均值是什么?中位数是什么?(b)该数据的众数是什么?讨论数据的峰。(c)数据的中列数是什么?(d)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)。(e)给出数据的五数概括。13.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下

4、每种方法将它们划分为三个箱。(a)等频划分(b)等宽划分(c)聚类划分14.简述比较以下概念,可以用例子解释你的观点。(a)雪花形模式、事实星座形、星形网查询模型(a)数据清理、数据变换、刷新(a)企业数据仓库、数据集市、虚拟仓库12.假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。(a)列举三种流行的数据仓库建模模式。(b)使用(a)列举的模式之一,呦岀上而的数据仓库模式图。(c)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLA

5、P操作?(d)为得到同样的结果,写一个SQL查询。假定数据存放的模式为Fee(day,month,year,doctor,hospital,patient,count,charge)13.3种主要的数据仓库应用:信息处理、分析处理和数据挖掘的区别是什么?讨论OLAP挖掘的动机。14.假定10维基本方体只包含3个基本单元:(1)(al,d2,d3,d4,…,d9,dl0),(2)(dl,b2,d3,d4,・・・d9,dlO)和(3)(dl,d2,c3,d4,…,d9,dlO),其中alHdl,b2Hd2并且c3Hd3.该立方体度量是count.(a)完全数据立方体屮包含多少个非空方体?(b

6、)完全数据立方体中包含多少个非空聚集单元?(c)如果冰山立方体的条件是"count>2",冰山立方体包含多少个非空聚集单元?18•设模糊集人=凹+空+竺+空+凹,模糊集B=^+—4-^+—+—,求及3。19.“年老”集O与“年青”集Y的隶属函数图像如图(I)所示,试求出模糊集O与模糊集Y的交集、并集,并用隶属函数的形式表示其交、并集。图1“年老"0."•年轻”了的隶属函数「0.10.5_「0.30.4~20.已知如下模糊关系/?=10.3,S=0」0」0.40.200.4,其中2=0.3,"0.5,求对其模糊关系施行如下运算的值:RuS,RcS,R‘,Rro若有「0.30.70.4_0.

7、50.7_10.50.4,s=0.30」0.600.200.60」0.80.9—1,求RoS的值。21.设有5个环境单元,每个环境的污染数据按空气、水分、土壤、作物排序如下:州(5,5,3,2),兀2(2,3,4,5),勺(5,5,3,2),勺(1,5,3,1),兀5(2,4,5,1),请选择合适的聚类方法对其分析,并以其聚类方法得出相应分类结果,并说明选择此方法进行聚类的原因。22、令论域U={,x,,尢3,尢4,兀5},模糊集>

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。