资源描述:
《支持数据挖掘算法选择的数据集特征提取研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、支持数据挖掘算法选择的数据集特征提取研究摘要:普通用户选择合适的算法进行数据挖掘是一项困难的工作。本研究提出了一种根据数据集特征判断数据集相似度,从而根据算法在相似数据集上的性能选择数据挖掘算法的方法。 关键词:数据挖掘数据集特征算法选择 :TP301.6:A:1007-9416(2011)04-0117-04 DatasetCharacterExtractingResearchtoSupport DataMiningAlgorithmsSelection Abstract:Itisdifficultforindividual
2、stochooseappropriatealgorithmsfordatamining.Thispaperpresentsaparadigmthatextractssimilarityofdatasetbasedonitscharacters,leadingtoavailablealgorithmsaccordingtocharactersonsimilardatasets. Keyining;datasetcharacter;algorithmselection 1、引言 随着数据挖掘技术的不断发展,数据挖掘软件逐步成熟,数据挖掘成果日
3、益丰富,并运用到管理决策、经济发展趋势分析等多方面。与此同时,由于计算机运算能力的提高、计算机存储量的数量级增加,个人已经初步具备了进行数据挖掘所需的数据源和高运算能力的电脑。因此各行各业的人都希望通过运用数据挖掘软件对自己的数据进行发掘分析,从而获得有效的信息。 但是由于数据挖掘算法多达上千种,它们适用于不同的数据挖掘类型,对不同的数据集挖掘效果也有很大差异。对于非数据挖掘专家的普通用户而言,选择适合自己数据集的算法非常困难。国内外专家的大量实验已经验证,同一个算法在相似数据集上的挖掘效果相似。而对很多算法的效果评估是基于各种国际标准数据集的。
4、如果研究者能够知道自己的数据集与标准数集的相似程度,并选择在相似的标准数据集上表现良好的算法来对自己的数据集进行挖掘,将更容易获得满意的挖掘效果。 因此,数据集的相似度判断便成为了一个关键点。数据集的相似不应该是简单的内容形式相似,比如同样是文本数据,因为同样内容形式的数据集可能在不同类型数据项的分布上有着巨大区别。数据集特征是指能反应该数据集自身数据统计特点的一些指标,是对整个数据集而言,用于确定数据集的整体特点。因此根据数据集特征来比较数据集之间的相似度,将具有较高的准确度。 2、数据集特征概述 数据集特征应该是能反应数据集自身的数据
5、特点的一些指标。这个特征有别于用于数据挖掘中的分类特征。数据挖掘过程中的特征提取和选择是对数据集的内容而言,分析对象是数据集中的属性和记录值,提取的特征用以为各条记录进行分类。而数据集特征是对整个数据集而言,分析的对象虽然也关系具体的属性和记录,但是提取的特征是这些属性和记录的整体性描述,用于确定数据集的整体特点。 数据集特征其实是元学习的一个很小的领域[1]。数据集特征可以分为几个不同的种类:包括标准统计和加强统计[2]。标准统计描述的是数据集的性质和数据集中变量的性质。加强统计分为两个方面,一个是对表示数据集值域的数值属性空间特点的描述,另一
6、个是对数据集的名称属性特点的描述。国外已经有很多学者、机构从事数据集特征提取研究,并提出了多种特征提取的方法和特征度量,如时间序列的长度(LEN)[3]、前5个自相关的评价绝对值(MEAN-COR),NMSE等。 3、数据集特征提取及比对 3.1特征度量选择标准 为了支持数据挖掘算法的选择,应该选取对数据挖掘效果影响较明显的特征度量来进行提取。选择的数据集特征要符合数据挖掘功能的特点。因为数据集的不同特点对于不同功能挖掘算法的效果影响程度是不同的。如记录数、属性数会影响分类的速度和精度,离群点分布会影响聚类的效果等。分析了各种度量对数据挖
7、掘效果的影响程度,确定特征的提取应该侧重以下几个方面度量:数据集的大小,数据的中心趋势,数据集属性分布,属性的离散程度和不同属性间的关联程度。 同时对特征度量的选择要注意以下几个问题: 第一、特征要是客观可靠且有区别度的。这样才能避免主观分析对特征提取的影响。如果由专家主观提取特征不但费时,而且可靠性并不高; 第二、 (3)进行实验的5个算法在数据集hayes-roth和cmc上的平均性能如表3所示: (4)根据该列表对数据集tea选择合适的算法 如果用户对挖掘的精度要求较高,则可以选择END算法;如果对速度要求高,则应该选择BFTre
8、e算法。在用户数据集tae上用5中算法进行试验,检验按数据集特征相似度选择的算法是否真的在精度和速度上分别都是表现最好的。