欢迎来到天天文库
浏览记录
ID:57925011
大小:461.21 KB
页数:8页
时间:2020-04-14
《区间型符号数据的特征选择方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第1期运筹与管理Vo1.24,No.12015年2月0PERAT10NSRESEARCHANDMANAGEMENTSCIENCEFeb.2015区间型符号数据的特征选择方法郭崇慧,刘永超(大连理工大学系统工程研究所,辽宁大连116024)摘要:对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优
2、化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。关键词:符号数据分析;特征选择;最近邻分类器;区间型数据中图分类号:0235文章标识码:A文章编号:1007—3221(2015)01—0067—08AFeatureSelectionMethodforSymbolicIntervalDataGUOCho
3、ng-hui,LIUYong-chao(InstituteofSystemsEngineering,DalianUniversityofTechnology,Dalian116024,China)Abstract:Featureselectionforsymbolicintervaldatacanreducethedimensionofdataandextractthekeyfea—turesofdata.Inordertodealwiththefeatureselectionproblem,anewmet
4、hodisproposedinthispaper.Firstly,HausdorfdistanceandEuclideandistanceareutilizedtomeasurethesimilaritybetweentwointervalnumbers,andanoptimizationmode1.whichaimstomaximizethesimilaritybetweeneachsampleanditsclasscenter,iSestablishedtoestimatethefeatureweigh
5、tsforsymbolicintervaldata.Next.basedontheestimatedfeatureselec—tionweights,aclassifierisconstructedtoevaluatethegoodnessoftheweights.Finally,inordertoverifytheeffectivenessoftheproposedmethod,numericalexperimentsaredoneinartificiallygenerateddatasetsandrea
6、ldatasets,respectively.Thenumericalexperimentsresultsshowthattheproposedalgrithmcaneliminateirrelevantfeaturesandidentifyfeatureswhicharerelevanttotheclasslabels.Keywords:symbolicdataanalysis;featureselection;nearestneighborclassifier;intervaldata0引言随着数据收集
7、和存储技术的不断进步,越来越多的数据出现在各个领域当中。数据的不断丰富也加大了对海量数据分析方法和技术的需求。传统的数据分析方法在处理海量数据时,往往计算量很大,且难以从整体上掌握样本的性质。针对此类问题,EdwinDiday于1988年在国际分类协会联合会(CFCS)的第一次大会上首次提出了符号数据分析(SymbolicDataAnalysis,SDA)技术⋯。所谓符号数据,是指通过对大的数据样本空间进行降维处理,实现“数据合并”而形成的一个“数据包”,这个“数据包”就被定义为符号数据。常用的符号变量类型
8、有区间型、多值型和分布型。区间型符号数据描述的是一个变量的上下限区间,通常情况下,它是从一组定量数据中找出上限和下限,并利用上收稿日期:2013·08-27基金项目:国家自然科学基金资助项目(71171030,71031002);教育部新世纪优秀人才支持计划(NCET一11-0050)作者简介:郭崇慧(1973一),男,博士,教授,博士生导师,主要研究方向:数据挖掘与知识发现,决策理论与方法等。刘永超(1989.
此文档下载收益归作者所有