!数据挖掘中的特征选择及其算法研究

!数据挖掘中的特征选择及其算法研究

ID:4209375

大小:299.74 KB

页数:3页

时间:2017-11-29

!数据挖掘中的特征选择及其算法研究_第1页
!数据挖掘中的特征选择及其算法研究_第2页
!数据挖掘中的特征选择及其算法研究_第3页
资源描述:

《!数据挖掘中的特征选择及其算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第26卷第5期计算机工程与设计2005年5月Vol.26No.5ComputerEngineeringandDesignMay.2005数据挖掘中的特征选择及其算法研究彭佳红,沈岳,张林峰(湖南农业大学计算机与信息工程学院,湖南长沙410128)摘要:特征选择是整个KDD处理过程中的重要一环,特征选择方法可以分为Filter和Wrapper两种模式。从特征选择算法的搜索方向、搜索策略、评价方法和停止标准4个方面、Filter和Wrapper两种模式以及几种有代表性的特征选择算法等,时数据挖掘中的特征选择及其相关技术进行了广泛的研究。

2、关键词:特征选择;数据挖掘;知识发现;算法中图法分类号:TP301.6文献标识码:^文章编号:1000-7024(2005)05-1176-03SearchonfeatureselectionofdatamininganditsalgorithmsPENGha-hong,SHENYue,ZHANGLin-feng(CollegeofComputerandInformationEngineering,HunanAgricultureUniversity,Changsha410128,China)Abstract:Featuresele

3、ctionisimportantforKDD.Featureselectionapproachesconsistoffiltermodelandwrappermodel.Basedonthediscussionaboutthesearchdirection,searchstrategy,measureapproachandstopruleoffeatureselectionalgorithm,twomodels:filtermodel,wrappermodelandsomerepresentativeselectionalgorit

4、hmsareanalyzed.Finally,featureselectionofdatamininganditscorrelativetechnologyhavebeenstudiedwidely.Keywords:eatureselection;datamining;KDD;algorithm(3)双向搜索(BG):双向搜索同时从两个方向开始搜索。1引言一般搜索到特征子集空间的中部时,需要评价的子集数将会特征选择(也叫属性约简)能够为特定的应用在不失去数急剧增加。当使用单向搜索时,如果搜索要通过子集空间的据原有价值的基础上选择最

5、小的属性子集,去除不相关的和中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用冗余的属性:它提高了数据的质量,加快了挖掘的速度并且使的搜索方法。得挖掘出的规则更容易理解。特征选择是整个知识发现(KDD)(4)随机搜索(RG):随机搜索从任意的方向开始,对属性处理过程中的一环,对KDD的预处理、挖掘、后处理等都有帮的增加和删除也有一定的随机性。这样可克服局部极小。LVF助。KDD和数据挖掘能够将数据变为知识,因而,我们有必算法w比较有代表性。要仔细研究特征选择及其算法。2.2搜索策略2特征选择的4个方面由于搜索空间的大小不同,可以使

6、用不同的搜索策略。特征选择算法在特征子集空间中进行搜索时一般需考虑搜索策略可以大致分为3种:①完全搜索:通常会搜索到每一4个方面的问题:搜索方向、搜索策略、评价方法、停止标准。个属性子集;②启发性搜索:它避免了简单的完全搜索,在搜2.1搜索方向索的过程中使用启发性信息。通常启发性搜索的搜索空间只搜索方向即评价的特征子集产生的次序。搜索的方向有沿着一条特殊的路径处理数据,并且得到的解是近似最优解;从空集开始的前向搜索、从全集开始的后向搜索、双向搜索和③定性搜索:这种策略随机产生下一个待评价的子集,新产生随机搜索等。的子集要在维度、准确

7、性方面比当前的最佳子集更好。(1)前向搜索(SFG):从空集S开始,依据某种评价标准,根据数据挖掘在实际应用中的需求,使用以上介绍的4随着搜索的进行,从未被包含在S里的特征集中选择最佳的种搜索方向与相应搜索策略,设计出适合不同的需求算法。属性不断加入So2.3评价方法(2)后向搜索(SBG):从全集S开始,依据某种评价标准对于一个新产生的特征子集,需依某一标准对其进行评不断从S中选择最不重要的属性,直到达到某种停止标准。价,由评价值决定下一步搜索方向或停止搜索。怎样评价一它是对前向搜索的补充。个子集是区分特征选择算法的一个显著特点,

8、评价方法也用收稿日期:2004-10-10。基金项目:湖南农业大学引进人才科学基金项目(03Y706).作者简介:彭佳红(1962-),女,湖南江华人,副教授,研究方向为数据仓库、数据挖掘和电子商务。一1176来判断在搜索过程中哪个属

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。