欢迎来到天天文库
浏览记录
ID:36788904
大小:287.93 KB
页数:5页
时间:2019-05-15
《浅析数据挖掘的分类与预测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据软件2012年第33卷第6期SOFTWARE国际IT传媒品牌浅析数据挖掘的分类与预测方书晴(重庆邮电大学计算机科学与技术学院,重庆400000)摘要:数据挖掘技术是信息时代的宠儿,而分类和预测是数据分析的两种基本形式,能预测未知数据的趋势。本文主要介绍了何为数据的分类和预测,并且通过判定树归纳细化了数据分类的划分步骤;通过介绍线性回归、多元回归以及非线性回归等预测方法加深了对数据预测的认识;并介绍了分类法准确率评估方法以及分类和预测的异同点。关键词:数据挖掘分类预测判定树归纳线性回归保持法中图分类号:TP311文献标识码:BDOI:1
2、0.3969a.issn.1003-6970.2012.06.026AnalysisofDataMiningClassificationandPredictionFANGShu—qing(ComputerscienceandTechnologyInstitute∥ChongqingUniversityofPos如andTelecommunications,Chongqing400000,China)[Abstract]Dataminingtechnologyistheinformationage’spet,andtheclassificati
3、onandpredictionofdataanalysisisthetWOkindsofbasicforms,topredicttheunknowndatafiend.Thispapermainlyin廿oduceshowthedataclassificationandprediction,andthroughthedecisionfleeinducerefinementdataclassificationsteps;throughtheintroductionoflinearregression.multipleregressionandn
4、onlinearregressionpredictionmethodtodeepentothedatapredictawareness;anddescribestheclassificationaccuracyassessmentmethodsandtheclassificationandpredictionofsimilaritiesanddifferences.[Keywords]Datamining;Classification;Decisiontree;Linearregression0引言在当今社会中,数据库蕴藏着丰富的信息,能为我
5、们做出明智的商务决策提供帮助。而分类和预测是数据分析的两种最基本的形式,能预测未知数据的发展趋势。⋯1数据挖掘的分类1.1何为数据挖掘的分类数据挖掘的分类需要两个过程,过程一(如图1所示),首先建立一个可以表述预先给定的数据类的模型,这个模型由一些描述数据库属性的数据库元组来建造,并且假设任何一个数据库元组都属于一个由类标号属性确定的类,一般来说,每个类都是预先设定的类。对于数据挖掘的分类来说,每一个数据元组也可以作为一个实例、一个样本或者一个对象。训练效据集是指由为组建数据类模型面被分析的数据元组成的集合,其中每一个单个元组叫做一个训练样本
6、,每一个训练样本都可由样本群随机选取。由于在选取的过程中,被选取的每个训练样本都有一个类标号,所以过程一也被称作有指导的学习,即在明确了被选取的每个训练样本的类标号属于哪个类的“指导”下进行的模型的学习。怛。1在一般情况下,数据类学习模型的提供形式主要有三种,作者简介;方书晴(1991-),女,本科,研究方向为数据挖掘。分别为判定树、分类规则和数学公式。例如,可用用分类规则来处理一个给定消费者的信用信息数据库,可根据消费者的信誉度情况来识别消费者,并且此分类规则可以作为今后的数据样分娄算法/\\训练数据\.agemcomc(rcditrann
7、g分类规ⅢrZhanghua130lowfairIfage=',31--40’hadLiming31--40hightexcencntInogmc=highthenZhmglao兰40hightfairc-rcdJtWangjie三40mcdfairralmg---acellcm图l过程二(如图2所示),利用过程一中的数据模型进行分类。先要对模型分类的准确率进行评估,其中保持方法(hotdoutmethod)就是一种利用样本的类标号来评估测试集的预测准确率的比较简单的方法。它从测试集中随机选取样本,并且被选取的样本都独立于训练样本,然后将每个
8、测试样本的类标号和样本本身的学习模型类预测相比较,虽然学习模型可能会并入训练数据中出现的个别异常,怕1但是由于在总体样本群中以上个别异常不会出现,所以在一般情况下我
此文档下载收益归作者所有