欢迎来到天天文库
浏览记录
ID:28091101
大小:56.62 KB
页数:3页
时间:2018-12-08
《基于数据挖掘的住房状况与用户相关因素分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于数据挖掘的住房状况与用户相关因素分析【摘要】决策树是数据挖掘的一种重要手段,在数据挖掘知识发现中有广泛的应用。本文中在SQLServerBusinessIntelligenceDevelopmentStudio平台上,通过决策树模型绘制了决策树并且得出了关于预测项住房状况的影响因子以及影响程度的强弱,最后对数据挖掘结果进行分析与预测且得到了比较理想的预测与结论。【关键词】数据挖掘;决策树;SQL;住房状况1.引言本文是利用SQLServer数据挖掘对大规模数据集MovieClick进行挖掘,以便从大量繁杂的数据中获取隐含中其中的信息[1-2]。
2、MovieClick数据库是通过收集客户喜欢的电影的相关内容以及客户自身数据的一个数据集,如Numbedrooms、Numcars、MarryStatus、Age、Numbathrooms等信息。对影响用户的住房的状况的因素进行分析,得出影响因素的具体条件。2.数据挖掘方法数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。1.决策树在预测中的应用决策树是同时提供分类与预测的常用方法。决策树提供
3、了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子[3-4]。每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到迗一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。3.1决策树算法具体分析根据图的结果
4、展示,当卧室数量=4时,用户是自己拥有房子的概率比较大,这点也比较符合常识,通常卧室的数量比较多,比较容易推测出来家庭成员比较多,所以比较倾向于自己拥有住房而不是租房。当卧室数量〉=4时,是否已婚对用户是否拥有自己的住房的影响比较大,为婚姻状况是未婚时,租房的概率会比拥有住房的概率有所增加。1.模型评估参考文献[1][加]韩家炜,[加]坎伯(Kamber,M.).数据挖掘:概念与技术[M].北京:北京工业出版社,2001:3-4.[2]王丽珍,周丽华,陈红梅,等.数据仓库与数据挖掘原理及应用[M].科学出版社,2005,7:10-13.[3]王曰芬
5、,章成志,张蓓蓓,吴婷婷[J].数据清洗研究综述[J].现代图书情报技术,2007,12:50-56.[4][美]谭,[美]斯坦巴赫.数据挖掘导论[M].人民邮电出版,2006:35-40.
此文档下载收益归作者所有