数据仓库与数据挖掘考试试题

数据仓库与数据挖掘考试试题

ID:15141391

大小:116.55 KB

页数:7页

时间:2018-08-01

数据仓库与数据挖掘考试试题_第1页
数据仓库与数据挖掘考试试题_第2页
数据仓库与数据挖掘考试试题_第3页
数据仓库与数据挖掘考试试题_第4页
数据仓库与数据挖掘考试试题_第5页
资源描述:

《数据仓库与数据挖掘考试试题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。二、多项选择题(10分)6.在数据挖掘的分析方法中,直接

2、数据挖掘包括(ACD)A分类B关联C估值D预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核8.数据分类的评价准则包括(ABCD)A精确度B查全率和查准率CF-MeasureD几何均值9.层次聚类方法包括(BC)A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法10.贝叶斯网络由两部分组成,分别是(AD)A网络结构B先验概率C后验概率D条件概率表一、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40

3、%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目T1T2T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱T4T5啤酒、面包啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:项集C1支持度项集L1支持度{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup

4、min的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度{面包、花生酱}3/5{面包、花生酱}3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3>confminconfidence({花生酱}→{面包})=(3/5)/(4/5)=3/4>confmin所以,关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数据集X中随机地选择k个

5、数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:(2)对于X中的任意数据样本xm(1

6、成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:(4)对于X中的任意数据样本xm(1

7、类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3,m2=14.5:(6)对于X中的任意数据样本xm(1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。