区间型符号数据的特征选择方法-论文.pdf

区间型符号数据的特征选择方法-论文.pdf

ID:57925011

大小:461.21 KB

页数:8页

时间:2020-04-14

区间型符号数据的特征选择方法-论文.pdf_第1页
区间型符号数据的特征选择方法-论文.pdf_第2页
区间型符号数据的特征选择方法-论文.pdf_第3页
区间型符号数据的特征选择方法-论文.pdf_第4页
区间型符号数据的特征选择方法-论文.pdf_第5页
资源描述:

《区间型符号数据的特征选择方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第24卷第1期运筹与管理Vo1.24,No.12015年2月0PERAT10NSRESEARCHANDMANAGEMENTSCIENCEFeb.2015区间型符号数据的特征选择方法郭崇慧,刘永超(大连理工大学系统工程研究所,辽宁大连116024)摘要:对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首先,该方法使用区间数Hausdorff距离和区间数欧氏距离度量区间数的相似性,通过建立使得样本点与样本类中心相似性最大的优

2、化模型来估计区间型符号数据的特征权重。其次,基于特征权重构建相应的分类器来评价所估计特征权重的优劣。最后,为了验证本文方法的有效性,分别在人工生成数据集和真实数据集上进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别出与类标号有关的特征。关键词:符号数据分析;特征选择;最近邻分类器;区间型数据中图分类号:0235文章标识码:A文章编号:1007—3221(2015)01—0067—08AFeatureSelectionMethodforSymbolicIntervalDataGUOCho

3、ng-hui,LIUYong-chao(InstituteofSystemsEngineering,DalianUniversityofTechnology,Dalian116024,China)Abstract:Featureselectionforsymbolicintervaldatacanreducethedimensionofdataandextractthekeyfea—turesofdata.Inordertodealwiththefeatureselectionproblem,anewmet

4、hodisproposedinthispaper.Firstly,HausdorfdistanceandEuclideandistanceareutilizedtomeasurethesimilaritybetweentwointervalnumbers,andanoptimizationmode1.whichaimstomaximizethesimilaritybetweeneachsampleanditsclasscenter,iSestablishedtoestimatethefeatureweigh

5、tsforsymbolicintervaldata.Next.basedontheestimatedfeatureselec—tionweights,aclassifierisconstructedtoevaluatethegoodnessoftheweights.Finally,inordertoverifytheeffectivenessoftheproposedmethod,numericalexperimentsaredoneinartificiallygenerateddatasetsandrea

6、ldatasets,respectively.Thenumericalexperimentsresultsshowthattheproposedalgrithmcaneliminateirrelevantfeaturesandidentifyfeatureswhicharerelevanttotheclasslabels.Keywords:symbolicdataanalysis;featureselection;nearestneighborclassifier;intervaldata0引言随着数据收集

7、和存储技术的不断进步,越来越多的数据出现在各个领域当中。数据的不断丰富也加大了对海量数据分析方法和技术的需求。传统的数据分析方法在处理海量数据时,往往计算量很大,且难以从整体上掌握样本的性质。针对此类问题,EdwinDiday于1988年在国际分类协会联合会(CFCS)的第一次大会上首次提出了符号数据分析(SymbolicDataAnalysis,SDA)技术⋯。所谓符号数据,是指通过对大的数据样本空间进行降维处理,实现“数据合并”而形成的一个“数据包”,这个“数据包”就被定义为符号数据。常用的符号变量类型

8、有区间型、多值型和分布型。区间型符号数据描述的是一个变量的上下限区间,通常情况下,它是从一组定量数据中找出上限和下限,并利用上收稿日期:2013·08-27基金项目:国家自然科学基金资助项目(71171030,71031002);教育部新世纪优秀人才支持计划(NCET一11-0050)作者简介:郭崇慧(1973一),男,博士,教授,博士生导师,主要研究方向:数据挖掘与知识发现,决策理论与方法等。刘永超(1989.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。