特征选择算法综述及基于weka的性能比较

特征选择算法综述及基于weka的性能比较

ID:34481938

大小:56.15 KB

页数:8页

时间:2019-03-06

特征选择算法综述及基于weka的性能比较_第1页
特征选择算法综述及基于weka的性能比较_第2页
特征选择算法综述及基于weka的性能比较_第3页
特征选择算法综述及基于weka的性能比较_第4页
特征选择算法综述及基于weka的性能比较_第5页
资源描述:

《特征选择算法综述及基于weka的性能比较》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘中的特征选择算法综述及基于WEKA的性能比较陈良龙(湖南大学信息科学与工程学院)摘要:自进入21世纪以来,随着信息技术的飞速发展,产生了海量的具有潜在应用价值的数据,将这些数据转换成有用的信息和知识的需求也越来越迫切,因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法,在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势,然后概述了特征选择算法,最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。关键词:数据挖掘;特征选择;WEKA;Filter;Wrapper;性能比较Asurveyoffea

2、tureselectionalgorithminDataMiningandtheperformancecomparisonbasedonWEKAAbstract:Asthemassofdatawhichhavepotentialapplicationandvaluehavebeencreatedbytherapiddevelopmentofinformationtechnologysincethe21stcentury,theneedstotransferringthesedataintousefulinformationandknowledgearebeingmoreandmoreurge

3、nt,sotheDataMiningcausedthewholesocietyandtheinformationindustryofgreatconcern.FeatureselectioniscriticaltoDataMiningforthatitisacommonmethodtoreducedimensions.ThetendencyofDataMining’shandlerobjectisfirstintroducedinthispaper,thenintroductionofthefeatureselectionalgorithm,andfinallycomparedtheperf

4、ormanceofalgorithmsbasedonmethodsofFilterandWrapper,respectively,byusingWEKA(i.e.softwareusedinDataMining).Keywords:DataMining;Featureselection;WEKA;Filter;Wrapper;Performancecomparison1引言数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。还有很多和这一术语相近似的术语,如从数据库中发现知识(KD

5、D)、数据分析、数据融合(DataFusion)以及决策支持等。人们把原始数据看作形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。随着信息技术的飞速发展,越来越复杂的数据成为数据挖掘的处理对象,如文本数据、基因序列等。一般的,这些对象具有几十、几百甚至几万个属性。通过将这些对象表示成高维属性空间中的点或向量,把客观世界中的对象集用高维数据集合来表示[2]。然而,随着不相关属性的增加,训练样本的数目也将急剧增加[3]。一种解决的方法是建立高效的面向高维数据的算法,另外一种则是降低维度

6、。并且由于这些属性之间很有可能存在冗余等问题,选择好的特征算法成为解决这些问题的可行方法。特征选择(也叫属性约简)能够为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关的和冗余的属性;它能提高数据的质量,加快挖掘的速度并且使得挖掘出的规则更容易理解。2特征选择算法的4个要素一般特征选择算法必须确定以下4个要素:1)搜索起点和方向;2)搜索策略:3)特征评估函数;4)停止准则。2.1搜索起点和方向搜索起点是算法开始搜索的状态点,搜索方向是指评价的特征子集产生的次序。搜索的起点和方向是相关的,他们共同决定搜索策略。一般的,根据不同的搜索起点和方向,有以下4中情况:(1)前向搜

7、索(SFG):从空集S开始,依据某种评价标准,随着搜索的进行,从未被包含在S里的特征集中选择最佳的属性不断加入S。(2)后向搜索(SBG):从全集S开始,依据某种评价标准不断从S中选择最不重要的属性,直到达到某种停止标准。它是对前向搜索的补充。(3)双向搜索(BG):双向搜索同时从两个方向开始搜索。一般搜索到特征子集空间的中部时,需要评价的子集数将会急剧增加。当使用单向搜索时,如果搜索要通过子集空间的中部就会

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。