山东大学计算机学院.ppt

山东大学计算机学院.ppt

ID:59043708

大小:1.01 MB

页数:22页

时间:2020-10-29

山东大学计算机学院.ppt_第1页
山东大学计算机学院.ppt_第2页
山东大学计算机学院.ppt_第3页
山东大学计算机学院.ppt_第4页
山东大学计算机学院.ppt_第5页
资源描述:

《山东大学计算机学院.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、山东大学计算机学院MakingInterval-BasedClusteringRank-Aware报告人:李婷山东大学计算机学院出处:InternationalConferenceonExtendingDatabaseTechnology作者:JuliaStoyanovich,SihemAmer-Yahia,TovaMiloUniversityofPennsylvaniaPhiladelphia研究方向:Databases、Webdatamanagement、WebservicesandWebapplications、BusinessProcesses山东大学计算机学院Conte

2、ntsI.IntroductionII.FormalismIII.TheBARACAlgorithmIV.Evaluationofeffectiveness山东大学计算机学院I.IntroductionIndatingsites,ausermayspecifytheage,height,income,education,politicalaffiliation,andreligionofapotentialmatch.Inrealestateapplications,ausermaydescribehisdreamhomebyitslocation,size,andnumbero

3、fbedrooms.Thenumberofmatchesisoftenveryhigh,makingdataexplorationaninterestingchallenge.Typicallyusersalsospecifyrankingcriteriafortheretrieveditems,e.g.,asortorderonasingleattribute,oraweightedcombinationofmultipleattributes.排序帮助用户,依据他们的标准提供高质量的数据,同时导致同类的匹配数据,用户需要浏览大量的数据后,才能找到下一类数据。.山东大学计算机学

4、院I.Introduction例如:adatingwebsite用户:lookingforapartnerbetween20and40yearsold,sortingthematchesbyincomefromhighertolower结果:seeingalargenumberofmatchesintheirlate30swhoholdanMBAdegreeandworkinthefinancialindustry,beforeseeinganymatchesindifferentagegroupsandwalksoflife.更合理的结果展示:在结果集中,找到数据属性的聚类。T

5、heseclustersmaydescribematchesbetween35and40withanMBA,matchesbetween25and30whoworkinthesoftwareindustry,etc.,allowingfordataexplorationofrankedresults.山东大学计算机学院I.Introduction本文提出的聚类算法,得到的聚类具备三个性质:.1)ClusteringQualityrank-awareclusteringqualityMeasures(1)QtopN:treatthetopNitemsofeachintervalas

6、sets(2)QSCORE:accountforthescoresoftheitems(3)QSCORE&RANK:accountforbothscoresandranks2)Tightness对于一个有序区间,两个或多个连续的区间连接在一起,会产生一个更大的区间,但是并不一定增加新的items,因此可能会产生一个错误的聚类描述。例如:按收入从高到底排序,我们发现20到24岁的得分要低于25到29岁的用户。也就是20到29岁包含的items与25到29岁的一致,认为这个聚类不紧密。3)Maximality需要发现与区间集合下尽可能多的items。例如:intervalsI1:ag

7、e∈[20,29],I2:edu=MBA,andI3:income∈[75K,100K].IftwodimensionalclustersI1、I2,I1、I3,andI2、I3arediscovered,aswellasathree-dimensionalclusterI1、I2、I3,thenonlyI1、I2、I3ispresentedtotheuserI.Introduction-Contributions定义了基于区间的感知顺序的聚类,及相应的衡量聚类质量策略方法。提出

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。