基于特征权重量化的相似度计算方法

基于特征权重量化的相似度计算方法

ID:39585332

大小:368.92 KB

页数:11页

时间:2019-07-06

基于特征权重量化的相似度计算方法_第1页
基于特征权重量化的相似度计算方法_第2页
基于特征权重量化的相似度计算方法_第3页
基于特征权重量化的相似度计算方法_第4页
基于特征权重量化的相似度计算方法_第5页
资源描述:

《基于特征权重量化的相似度计算方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第??卷第?期计算机学报Vol.??No.?20??年?月CHINESEJOURNALOFCOMPUTERS???.20??基于特征权重量化的相似度计算方法*1)2)1)2)2)刘铭吴冲刘远超孙承杰1)(哈尔滨工业大学管理学院,哈尔滨,黑龙江省,中国,150001)2)(哈尔滨工业大学计算机科学与技术学院,哈尔滨,黑龙江省,中国,150001)摘要随着信息科学的迅猛发展,自动化的数据分析工具已经成为用户进行大规模数据分析所不可缺少的依靠。聚类显然是一种极为有效的分析工具,而为获得良好的聚类结果,

2、有效及准确的相似度计算方法是其必备的前提条件。事实上,在描述数据相似度时,不同的特征显然具有不同的作用,因此有必要借助一些先验知识,例如用户提供的限制数据,来衡量特征的重要性,并将其应用于相似度计算中以获取更加准确的计算结果。传统的特征权值量化方法均忽视了两点问题:(a)限制数据在特征空间中极有可能为非均匀分布;(b)限制数据中可能包含不一致性。上述问题的存在使得传统的权值量化方法无法获得准确的结果甚至无法运行。基于此,本文提出一种新颖的特征权值量化方法以处理上述两点问题:(a)将限制数据划分为

3、若干个等价类,进而通过计算参数“分布系数”来均匀化数据的分布;(b)将限制数据连接为无向图,进而通过计算参数“置信度”来衡量及弱化限制数据的不一致性;之后将这两个参数结合到特征权值量化函数中去以获得准确的相似度计算结果。实验结果显示:该特征权值量化函数能够结合限制数据来获取不同特征对数据相似度的贡献能力,并能应用于任何聚类算法中以提高聚类的准确度。关键词限制数据;特征权重量化;分布系数;置信度;中图法分类号TP18SimilarityCalculationBasedonFeatureWeight

4、Evaluation1)2)1)2)2)MingLiu*,ChongWu,YuanchaoLiu,ChengjieSun1)(SchoolofManagement,HarbinInstituteofTechnology,Harbin150001,China)2)(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)AbstractDuetohigh-speedadvanceofst

5、ateofarts,automaticanalysistoolsbecomeessentialforwebuserstoexploreusefulinformationfromlarge-scalewebdata.Amongthem,clusteringisobviouslyaneffectiveimplement.Apparently,accuratesimilaritycalculationplaysadecisiveroleforclusteringalgorithmstoacquireh

6、ighperformance.Owingtothefactthat,differentfeatureshavediversecontributionstosimilaritycalculation,itisnecessarytoutilizeweighttoassessfeature’scontributionbymeansofsometranscendentalknowledge(e.g.constraineddataprovidedbyusers),andtherebyimportitins

7、imilaritymeasurement.Unfortunately,conventionalconstraintbasedplansallfailtoconsidertwochallenges:(a)asymmetricaldistributionofconstraineddata,(b)inconsistencycontainedbyconstraineddata.Previoustwoissuesenablethemincompatible,evenlyunabletowork.Hence

8、,thispaperproposesanovelconstraintbasedweightevaluationtodealwiththem.Fortheformerone,constraineddataarepartitionedintoseveralequivalentclasses,anddistributingparametersareassignedtothemtobalancetheirdistributions.Forthelatterone,constraineddataareco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。