欢迎来到天天文库
浏览记录
ID:32983602
大小:59.09 KB
页数:4页
时间:2019-02-18
《数据挖掘常用分类算法探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘常用分类算法探究摘要:数据库、数据仓库以及其他存储信息库中潜藏着很多与商业、科学研究等活动的决策有关的数据和知识。对于数据挖掘中的数据分析,通常有两种常见的方法,即分类和预测,首先对数据库中的数据进行分类归纳,然后根据分类规则可以得到比较有价值的数据,然后我们可以根据这个数据来预测得到一些包含未来趋势的信息。在常见的分类算法中,决策树算法是一个有着很好扩展性的算法,可以应用到大型数据库中,可以对多种数据类型进行处理,分类模式容易转化为分类规则,结果也十分的浅显易懂易于理解。该文主要先介绍了几种常用的分类算法,然后具体介绍决策树算法的过程以及在分类算法实际应用中的优缺
2、点。关键词:数据挖掘;分类算法;人工智能;决策树中图分类号:TP311文献标识码:A文章编号:1009-3044(2013)34-7667-031数据挖掘基本分类算法简要介绍数据分类技术在日常很多领域都有过应用,譬如银行经常要使用分类模型来进行相应的商业评估;学校的教务系统要使用分类模型对学生的成绩以及各种评价来进行评估;研究生、博士生等发表论文,使用数据挖掘分类模型来对各种期刊进行细致的分类,这样才能有效的评价科研能力的好坏;还有例如百度、谷歌这样的大型搜索引擎,提供的推荐功能,分类技术已经融入了我们日常生活的方方面面,各个领域也提出了很多分类算法理论。最开始的数据挖掘分
3、类算法都是基于内存的算法。经过长时间的发展,数据挖掘算法也由使用内存开始逐步地使用外存以获得处理大数据的能力,以下对一些经典的分类算法进行介绍。1)决策树分类算法决策树分类算法是数据挖掘十分经典的分类算法。它使用自顶向下递归的方式构造决策树模型。决策树上的每一个结点都采用信息增益度量来选择所要测试的属性。也可以从已经生成的决策树上提取出分类规则。2)向量空间模型VSM算法VSM的概念十分简单,就是把对文本内容的处理转化为对空间向量中的向量运算,而且可以使用空间中的相似度参数来表示文本中语义的相似度,非常的直观简单。在向量空间模型中,文本包含了各种机器可以读取的记录信息。不妨
4、用D表示,文本的特征集合可以表示为D(Tl,T2,…,Tn),其中Tk是特征项,10.1),我们认为数据应该按照这个节点进行分裂,也就是说这个属性(house)构成了我们的一次决策过程。2)再按照house分裂的每个数据集上,针对其他属性(house除外)进行与1)相同的过程,直到信息增益不足以满足数据分裂的条件。这样,我们就得到了一个关于属性数据划分的一棵树。可以作为class字段未知的数据的决策依据。3)经过编码运行后得到实验结果如下图:根据该决策树的输出,我们可以得到如下的挖掘规则:首先根据house属性判断,当house属性为1时,走到索引为2的节点,此时该节点是叶
5、子节点,预测值class为1.4)决策树算法的评价根据上面实验的分析,我们可以发现决策树的一些优缺点:决策树算法所产生的分类规则十分的易于人理解,准确率很高;但是在构建决策树的过程中,需要对数据集进行多次的扫描排序,效率还有待进一步提高。3总结本文主要先详细介绍了数据挖掘分类技术目前的常用经典算法,后面部分主要描述了决策树算法的实现,决策树算法是一个基于信息炳理论的具有良好性能的分类算法。该文通过对数据的分析,然后通过编程实现决策树算法对该数据进行处理,得到一个决策树的结构,根据该树可以归纳得到分类规则,最后可以得到评价结果。决策树算法对数据无任何前置要求,应用在金融和教育
6、产业中效果也比较好,故发展前景十分良好,可以继续深入研究。参考文献:[1]郭超峰,李梅莲•基于ID3算法的决策树研究与应用[J]•许昌学院学报,2007(2).[2]Pang-NingTan,SteinBachM,KumarV.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2007.[3]刘惟一,李维华.智能数据分析[M].北京:科学出版社,2007.
此文档下载收益归作者所有