原《数据挖掘》习题

原《数据挖掘》习题

ID:6743970

大小:290.00 KB

页数:20页

时间:2018-01-24

原《数据挖掘》习题_第1页
原《数据挖掘》习题_第2页
原《数据挖掘》习题_第3页
原《数据挖掘》习题_第4页
原《数据挖掘》习题_第5页
原《数据挖掘》习题_第6页
原《数据挖掘》习题_第7页
原《数据挖掘》习题_第8页
原《数据挖掘》习题_第9页
原《数据挖掘》习题_第10页
资源描述:

《原《数据挖掘》习题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ch11.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a)  根据性别划分公司的顾客。(b)  根据可赢利性划分公司的顾客。(c)  计算公司的总销售额。(d)  按学生的标识号对学生数据库排序。(e)  预测掷一对骰子的结果。(f)   使用历史记录预测某公司未来的股票价格。(g)  监视病人心率的异常变化。(h)  监视地震活动的地震波。(i)    提取声波的频率。2.(ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。3.(ch1)数据挖掘一定可以得到有趣的强关联规则。4.(ch1)为了提高挖掘质量,通常要进行

2、数据预处理,包括数据清理、集成、选择、变换等。5.(ch5){发烧,上呼吸道感染}是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是(B)。A数据越多越好B尽可能多的适合的数据C数据越少越好D以上三条都正确7.数据挖掘算法以(D)形式来组织数据。A行B列C记录D表格Ch28.(ch2)假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均

3、值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。7、P983.4(ch3)假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。为数据仓库画出雪花模式图8、P983.5(ch3)假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。

4、其中,change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。画出该数据仓库的星形模式图10、(ch5)数据库有4个事物。设min_sup=60%,min_conf=80%TID日期购买的物品T10099/10/15{K,A,D,B}T20099/10/15{D,A,C,E,B}T30099/10/19{C,A,B,E}T40099/10/22{B,A,D}a)使用Apriori算法找出最大得频繁项集b)列出所有强关联规则(带支持度s和置信度c)11.(参P229)假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于

5、饮料偏爱的信息,汇总如下:咖啡不喝咖啡汇总茶15050200不喝茶650150800汇总8002001000若支持度和置信度阈值分别为10%,50%,评估关联规则{茶}——>{咖啡}。(负相关)12.(ch5,参P224)有如下事务数据集。试挖掘频繁项集。(最小支持度为2)TID项1{a,b}2{bcd}3{acde}4{ade}5{abc}6{abcd}7{a}8{abc}9{abd}10{bce}结果:后缀频繁项集e{e},{de},{ade},{ce},{ae}d{d},{cd},{bcd},{acd},{bd},{abd},{ad}c{c},{bc},{abc

6、}{ac}b{b}{ab}a{a}13.(ch5,参P256,17)假定有一个购物篮数据集,包含100个事务和20个项。如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。令最小支持度阈值和最小置信度阈值分别为10%和60%。1)计算关联{a}——>{b}的置信度。根据置信度度量,这条规则是有趣的么?(这条规则是否是强关联规则?)(80%,是)2){a}——>{b}是否有趣?(负相关,无趣)11.求出下表的强关联规则(ch5)IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3ora

7、ngenoodlemeatbeer4fishsoftdrinkfrozenmealbread12、(ch6)下表给出某门课程若干学生期中和期末考试成绩期中725081749486598365338881期末846377789075497977527490绘数据图。X和Y看上去具有线性联系吗?13.(ch6)下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低是良

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。