欢迎来到天天文库
浏览记录
ID:51306469
大小:1.64 MB
页数:47页
时间:2020-03-21
《数据挖掘思考和练习题.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘思考和练习题第一章1.1什么是数据挖掘?什么是知识发现?简述KDD的主要过程。答:(I)数据挖掘(DzilaMini隔)是指从大最结构化利非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。(2)知识发现是从大最数据中提取有效的、新颖的、潜在的有用的,以及最终可理解的模式的非平凡过程。(3)KDD的过程主要包括:KDD的过程主要山数据整理、数据挖掘、结果的解释评论三部分组成。可以由模型表示出来:1.确定挖掘目标:了解应用领域及相关的经验知识,从用户的观点出发确定数据挖掘的目标。这一步是实现数据挖掘的重要因索,相当于系统分析,需要系统分
2、析员和用户的共同参与。2.建立目标数据集:从现有的数据屮,确定哪些数据是与本次数据分析任务相关的。根据挖掘目标,从原始数据屮选择相关数据集,并将不同数据源屮的数据集中起來。在这一阶段需要解决数据挖掘平台、操作系统和数据源数据类型等不同所产生的数据格式差并。3.数据清洗和预处理:这一阶段即是将数据转变成“干挣”的数据。目标数据集中不可避免地存在着不完整、不一致、不将确和冗余地数据。数据抽取之后必须利用专业领域地知识对“脏数据''进行清洗。然后再对它们实施相应的方法,神经网络方法和模糊匹配技术分析多数据源之间联系,然后再对它们实施相应的处理。4.数据降维和转换:
3、在对数据库和数据子集进行预处理之后,考虑了数据的不变表示或发现了数据的不变的表示情况下,减少变最的实际数目,设法将数据转换到一个更易找到了解的空间上。5.选择挖掘算法使用合适的数据挖掘算法完成数据分析。确定实现挖掘目标的数据挖掘功能,这些功能方法包括概念描述、分类、聚类、关联规则。其次选择合适的模式搜索算法,包括模型和参数的确定。6.模式评价和解释根据最终用户的决策目的对数据挖掘发现的模式进行评价,将有用的模式或描述有用模式的数据以可视化技术和知识表示技术展示给用户,让用户能够对模型结果作出解释,评价模式的有效性。结果不能令决策者满意,需要朿复以上数据挖掘过
4、程。1.2简述数据挖掘涉及的数据类型以及数据的聚合形式。答:数据挖掘中涉及的数据类型有:非数值数据,离散数值数据和连续数值数据,结构化数据和菲结构化数据,超文木数据、多媒体数据、空间数据。在聚类处理的数据类型中包括区间标度变量、二元变最、标称型变最等等。时间和FI期型数据可以经过适当的函数变换成数值数据后再进行处理。(1)非数值数据向数值数据的转化:神经网络方法只能处理数值数据,因此需要将非数值数据转为数值数据。方法址建立非数值熨变最的不同状态值和离散数值之间的对照表。(2)离散数值数据的转化:当变戢取一组离散值时,必须对它作某种转化,使得每个离散致值都能产
5、生唯数据挖掘思考和练习题第一章1.1什么是数据挖掘?什么是知识发现?简述KDD的主要过程。答:(I)数据挖掘(DzilaMini隔)是指从大最结构化利非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。(2)知识发现是从大最数据中提取有效的、新颖的、潜在的有用的,以及最终可理解的模式的非平凡过程。(3)KDD的过程主要包括:KDD的过程主要山数据整理、数据挖掘、结果的解释评论三部分组成。可以由模型表示出来:1.确定挖掘目标:了解应用领域及相关的经验知识,从用户的观点出发确定数据挖掘的目标。这一步是实现数据挖掘的重要因索,相当于系统分析,需要系
6、统分析员和用户的共同参与。2.建立目标数据集:从现有的数据屮,确定哪些数据是与本次数据分析任务相关的。根据挖掘目标,从原始数据屮选择相关数据集,并将不同数据源屮的数据集中起來。在这一阶段需要解决数据挖掘平台、操作系统和数据源数据类型等不同所产生的数据格式差并。3.数据清洗和预处理:这一阶段即是将数据转变成“干挣”的数据。目标数据集中不可避免地存在着不完整、不一致、不将确和冗余地数据。数据抽取之后必须利用专业领域地知识对“脏数据''进行清洗。然后再对它们实施相应的方法,神经网络方法和模糊匹配技术分析多数据源之间联系,然后再对它们实施相应的处理。4.数据降维和转
7、换:在对数据库和数据子集进行预处理之后,考虑了数据的不变表示或发现了数据的不变的表示情况下,减少变最的实际数目,设法将数据转换到一个更易找到了解的空间上。5.选择挖掘算法使用合适的数据挖掘算法完成数据分析。确定实现挖掘目标的数据挖掘功能,这些功能方法包括概念描述、分类、聚类、关联规则。其次选择合适的模式搜索算法,包括模型和参数的确定。6.模式评价和解释根据最终用户的决策目的对数据挖掘发现的模式进行评价,将有用的模式或描述有用模式的数据以可视化技术和知识表示技术展示给用户,让用户能够对模型结果作出解释,评价模式的有效性。结果不能令决策者满意,需要朿复以上数据挖
8、掘过程。1.2简述数据挖掘涉及的数据类型以及数据的聚
此文档下载收益归作者所有