资源描述:
《数据挖掘导论习题答案(中文版)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授VipinKumar版权所有2006年PearsonAddison-Wesley。保留所有权利。....内容。1Introduction 12Data 53ExploringData 194Classification:BasicConcepts,DecisionTrees,andModelEvaluation 255Classification:AlternativeTechniques 456AssociationAnalysis:BasicConceptsandAlg
2、orithms 717AssociationAnalysis:AdvancedConcepts 958ClusterAnalysis:BasicConceptsandAlgorithms 1259ClusterAnalysis:AdditionalIssuesandAlgorithms 14710AnomalyDetection 157三....1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。(a)把客户的公司根据他们的性别。否。这是一种简单的数据库查询。(b)把客户的公司根据他们的盈利能力。第这是一种会计计算、应用程序的门限
3、值。然而,预测盈利的一种新的客户将数据挖掘。(c)计算的总销售公司。否。这又是简单的会计工作。(d)排序的学生数据库基于学生的身份证号码。第再次,这是一种简单的数据库查询。(e)预测结果丢(公平)的一对骰子。否。既然死是公正的,这是一种概率的计算。如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。(f)预测未来股价的公司使用。historicalrecords是的。我们将试图创建的模型,可以预测未来的持续价值的股票价格
4、。这是一例的 2第1章介绍领域的数据挖掘预测模型。我们可以使用回归分析。这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。(g)监控在患者心率异常。..是的。我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。这将涉及领域的数据挖掘被称为异常检测。这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。(a)监测地震波地震活动。是的。在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。这一例子说明,在区域的数据挖掘已知的分级。(b)解压的频率的声音波形。否。
5、这是信号处理。2.假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。下面的示例将可能的答案。•群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。•分类可以将结果以预定义的类别如“体育”、“政治”等。•连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。•异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更 受欢迎。广告策略可以调整,以利用这
6、种事态发展。33.对于下面的每个数据集说明数据是否privacyis一项重要的问题。(a)普查数据的收集从1900年—1950年。无(b)IP地址和访问次数的Web用户访问你的网站。单击“是”(c)图像从地球轨道运行的卫星。无(d)名字和地址的人从电话通讯簿。无(e)姓名和电子邮件地址收集网。无....2数据1.在最初的例子第2章、统计师说:“是的,字段2和3基本上是相同的。"您能告诉我从三条线的样本数据所显示的为什么她说吗?7对所显示的值。虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。2.分类以下属性为Binary、离散或
7、连续的。还将其归为质量(名义或序数)或数量(时间间隔或比例)。某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。例如: 年龄。 答: 独立的、定量的、比率(a)时间在上午或下午。Binary、定性、序号(b)亮度计测量光度计。持续不断的、定量的、比率(c)亮度测量人的判决。离散的、定性的、序号(d)角度以度为单位0◦和360◦。持续不断的、定量的、比率(e)铜牌、银牌和金牌颁发的奖项在奥运会上。离散的、定性的、序号(f)高度海平面以上。持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。(g)多的病人
8、在医院里。离散的、定量的、比率(h)ISBN号的书籍。(查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)