欢迎来到天天文库
浏览记录
ID:48424960
大小:130.50 KB
页数:33页
时间:2020-01-25
《数据挖掘原理与实践 蒋盛益 答案.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、.习题参考答案第1章绪论1.1数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。②天文领域中利用决策树等数据挖掘
2、方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.2给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务
3、。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。1.3假定你是Big-University的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的
4、姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用可视化软件进行显示。1.4假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分
5、类、关联规则挖掘和离群点检测等技术为企业服务。答:(1)使用聚类发现互联网中的不同群体,用于网络社区发现;第2页共27页(2)使用分类对客户进行等级划分,从而实施不同的服务;(3)使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广..外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。(4)使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。1.5定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。答:关联是指发现样本间或样本
6、不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。聚类是将数据划分为
7、相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。1.6根据你的观察,描述一个可能的知识类型,它需要由数据挖
此文档下载收益归作者所有