数据挖掘中区间数据模糊聚类研究——基于wasserstein测度

数据挖掘中区间数据模糊聚类研究——基于wasserstein测度

ID:37056945

大小:42.01 KB

页数:15页

时间:2019-05-15

数据挖掘中区间数据模糊聚类研究——基于wasserstein测度_第1页
数据挖掘中区间数据模糊聚类研究——基于wasserstein测度_第2页
数据挖掘中区间数据模糊聚类研究——基于wasserstein测度_第3页
数据挖掘中区间数据模糊聚类研究——基于wasserstein测度_第4页
数据挖掘中区间数据模糊聚类研究——基于wasserstein测度_第5页
资源描述:

《数据挖掘中区间数据模糊聚类研究——基于wasserstein测度》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘中区间数据模糊聚类研究——基于Wasserstein测度ComputerEngineeringdn铆,fc口ffD计算机工程与应用数据挖掘中区间数据模糊聚类研究——基于Wasserstein测度李红,孙秋碧LIHong,SUNQiubi福州大学管理学院统计系,福州350108DepartmentofStatistics,ManagementCollege,FuzhouUniversity,Fuzhou350108,ChinaLIHong,SUNQiubi.Fuzzyclusteringofinterval

2、databasedonWassersteindistancesindatamining?Com-puterEngineeringandApplications,2012,48(12):24-28.Abstract:Becauseofthelimitationsofthein—usedistanceinfuzzyclusteringmodelsforintervaldata,thispaperputsforwardtheWassersteindistancesintointervaldata,andgetsthea

3、daptivesingle—indexandadaptivedouble—in?dexfuzzyclusteringmodels.FromthesimulationresultsandCRindex,theadvantagesofthemodelareproved.Themodelhasstrongmeaningsinempiricalworkwhendataisunstableandmissing.Keywords:fuzzyclustering;intervaldata;symbolicdataanalysi

4、s;adaptive摘要:针对目前区间数据模糊聚类研究中区间距离定义存在的局限性,引入能够考虑区间数值分布特征的Wasserstein~离测度,提出基于Wasserstein~g离测度的单指标和双指标自适应模糊聚类算法及迭代模型.通过仿真实验和cR指数,证实了该类模型的优势.该算法在海量,堆积如山的数据挖掘中有着重要的实践意义.关键词:模糊聚类;区间数据;符号数据分析;自适应文章编号:10028331(2012)12—002405文献标识码:A中图分类号:TP181SDA(SymbolicDataAnalysis

5、)是知识发现及数据管理研究中的新领域,与多维数据分析,模式识别及人工智能紧密联系在一起.它的目的在于针对符号数据的特点选用合适的方法对其进行分析,挖掘数据中的隐含信息.模糊聚类是模糊模式识别范畴中的重要分支,是一种无监督的模式识别方法,在许多领域被广泛地应用.目前,国际学术界SDA体系模糊聚类研究方法大体上分以下几种:基于相似关系的聚类方法,基于目标函数的聚类方法,基于模糊关系的传递闭包,聚类神经网络和基于先进的优化算法的聚类方法.随着计算机的发展和实际问题的需要,基于目标函数的算法已成为模糊聚类算法的主流.国外

6、有学者已经对此作出有益的研究:Souza和DeCarvalho分别使用city—block距离,Hausdorff距离和欧式距离对区间型符号数据进行研究.上述三种距离公式是目前区间模糊聚类中常用的三种距离.但这些距离公式主要对比区间数据端点情况,疏于考虑数据分布的集中与离散情形,其聚类研究的结果可能易于丢失较多数据分布的有效信息.前期研究中】,首次将Wasserstein测度弓l入区间数据的模糊聚类研究,通过CR指标对比,证明该方法的优越性.研究也同时表明,将各类别指标同等看待,可能忽略指标自身的内在关联性和类的

7、结构.1基于Wasserstein测度的单指标自适应区问模糊聚类理论模型1.1Wasserstein测度假定随机变量和B的分布函数分别为)和),NA和B的Wasserstein距离测度定义为:基金项目:国家社科基金(No.10BTJ002);国家自然科学基金青年项目(No.70902071).作者简介:李红(198O一),女,在读博士研究生,讲师,主要研究领域为数据挖掘和经济统计分析;孙秋碧(1958一),女,博士学位,教授.E-mail:fdgylh@gmail.com'收稿日期:201111—01修回日期:2

8、011—12.22CNKI出版日期:2012.01.05DOI:10.3778/j.issn.1002-8331.2012.12.005http://www.cnki.net/kcms/detail/11.2127.TP.20120105.1704.005.html李红,孙秋碧:数据挖掘中区间数据模糊聚类研究——基于Wasserstein测度((),()=『一()一一()

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。