资源描述:
《山东大学计算机学院.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、山东大学计算机学院MakingInterval-BasedClusteringRank-Aware报告人:李婷山东大学计算机学院出处:InternationalConferenceonExtendingDatabaseTechnology作者:JuliaStoyanovich,SihemAmer-Yahia,TovaMiloUniversityofPennsylvaniaPhiladelphia研究方向:Databases、Webdatamanagement、WebservicesandWebapplications、BusinessProcesses山东大学计算机学院Conte
2、ntsI.IntroductionII.FormalismIII.TheBARACAlgorithmIV.Evaluationofeffectiveness山东大学计算机学院I.IntroductionIndatingsites,ausermayspecifytheage,height,income,education,politicalaffiliation,andreligionofapotentialmatch.Inrealestateapplications,ausermaydescribehisdreamhomebyitslocation,size,andnumbero
3、fbedrooms.Thenumberofmatchesisoftenveryhigh,makingdataexplorationaninterestingchallenge.Typicallyusersalsospecifyrankingcriteriafortheretrieveditems,e.g.,asortorderonasingleattribute,oraweightedcombinationofmultipleattributes.排序帮助用户,依据他们的标准提供高质量的数据,同时导致同类的匹配数据,用户需要浏览大量的数据后,才能找到下一类数据。.山东大学计算机学
4、院I.Introduction例如:adatingwebsite用户:lookingforapartnerbetween20and40yearsold,sortingthematchesbyincomefromhighertolower结果:seeingalargenumberofmatchesintheirlate30swhoholdanMBAdegreeandworkinthefinancialindustry,beforeseeinganymatchesindifferentagegroupsandwalksoflife.更合理的结果展示:在结果集中,找到数据属性的聚类。T
5、heseclustersmaydescribematchesbetween35and40withanMBA,matchesbetween25and30whoworkinthesoftwareindustry,etc.,allowingfordataexplorationofrankedresults.山东大学计算机学院I.Introduction本文提出的聚类算法,得到的聚类具备三个性质:.1)ClusteringQualityrank-awareclusteringqualityMeasures(1)QtopN:treatthetopNitemsofeachintervalas
6、sets(2)QSCORE:accountforthescoresoftheitems(3)QSCORE&RANK:accountforbothscoresandranks2)Tightness对于一个有序区间,两个或多个连续的区间连接在一起,会产生一个更大的区间,但是并不一定增加新的items,因此可能会产生一个错误的聚类描述。例如:按收入从高到底排序,我们发现20到24岁的得分要低于25到29岁的用户。也就是20到29岁包含的items与25到29岁的一致,认为这个聚类不紧密。3)Maximality需要发现与区间集合下尽可能多的items。例如:intervalsI1:ag
7、e∈[20,29],I2:edu=MBA,andI3:income∈[75K,100K].IftwodimensionalclustersI1、I2,I1、I3,andI2、I3arediscovered,aswellasathree-dimensionalclusterI1、I2、I3,thenonlyI1、I2、I3ispresentedtotheuserI.Introduction-Contributions定义了基于区间的感知顺序的聚类,及相应的衡量聚类质量策略方法。提出