欢迎来到天天文库
浏览记录
ID:56463748
大小:230.50 KB
页数:27页
时间:2020-06-19
《内容无关的信息检索模型.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、内容无关的信息检索模型杜小勇2008-03-13基于文本内容的检索模型布尔模型向量空间模型概率模型统计语言模型语义网络模型与内容无关的其他检索模型基于协同的模型基于链接分析的模型基于关联的模型通常与基于内容的模型一起使用CollaborativeRecommendationrajdenotesthescoreofitemjratedbyanactiveusera.Ifuserahadnotrateditemj,raj=0.m-totalnumberofusers,n-totalnumberofitems.协同推荐模型Foragiv
2、enuser-aanddocument-j,Predicatepaj=?isthenumberofuserswhoaresimilartouseraandhaverateditemj.w(a,i):Theweightofthesimilaritybetweenuseraanduseri.kisanormalizingfactorsuchthattheabsolutevaluesoftheweightssumtounity.算法主要的问题冷启动(coldstar)稀疏性(sparse)高维性(highdimension)基于分类的协
3、同过滤推荐基本思想:(1)对矩阵进行划分划分依据资源的语义分类(2)根据划分后的子矩阵进行协同过滤(3)生成预测结果基于分类的协同过滤推荐基本思想:(1)把每一项资源归到一个或几个类别中;(2)用户对资源评价矩阵进行分解,(3)对进行裁减,去掉对该类资源没有打分的用户基于分类的协同过滤算法(续)(4)根据计算用户在某一类别中的相似度,即得到一个用户的最邻近邻居们。(5)计算用户对特定类别中的资源感兴趣度(6)综合用户在多个类别中的感兴趣程度,得到最终推荐结果。基于聚类的协同过滤算法基本思想:(1)对矩阵进行划分划分根据稀疏矩阵聚类
4、、KMeans等聚类算法(2)根据划分后的子矩阵进行协同过滤(3)生成预测结果基于矩阵聚类的协同过滤基于矩阵聚类的协同过滤基本思想:(1)把每一项资源归到一个或多个子矩阵中,每个用户被划分到一个或多个子矩阵中;基于聚类的协同过滤算法(续)(2)根据计算用户在某一类别中的相似度,即得到一个用户的最邻近邻居们。(3)计算用户对特定类别中的资源感兴趣度(4)综合用户在多个类别中的感兴趣程度,得到最终推荐结果。与内容无关的其他检索模型基于协同的模型基于链接分析的模型基于关联的模型通常与基于内容的模型一起使用链接分析模型对于超文本(例如WW
5、W上的网页),超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。SergeyBrin和LarryPage在1998年提出了PageRank算法J.Kleinberg于1998年提出了HITS算法其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。PageRanking算法BrinS,PageLTheanatomyofalarge-scalehypertextualwebsearchengine.WWW’98基本思想:以下三条启发式规则:如果一个页面被多次
6、引用,那么这个页面很可能是重要的。如果一个页面被重要的页面引用,那么这个页面很可能是重要的。一个页面的重要性被均分并传递到它所引用的页面。PageRankingCitationgraph(linkgraph)ofthewebAwebpage’s“PageRank”:PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))PageAhaspagesT1,…,Tnwhichpointtoit(i.e.arecitations)07、beroflinksgoingoutofAHITS算法J.Kleinberg.Authoritativesourcesinahyperlinkedenvironment.InProc.NinthAnn.ACM-SIAMSymp.DiscreteAlgorithms,pages668-677,ACMPress,NewYork,1998Hub页面:指向权威页面的页面,例如目录页面等。Authority页面:被很多页面指向的页面HITS算法Step1:构造子图S查询结果页面R(前n个)R中每一个页面所指向的页面指向R中页面的页面(可8、能要限制数量)Step2:迭代计算页面的h值和a值每一个页面的h(p)=1,a(p)=1定义两个操作:I:a(p)=∑(q,p)∈Eh(q)O:h(p)=∑(p,q)∈Ea(q)HITS算法(续)Step3:重复Step2k次(可以证明上述迭代可以
7、beroflinksgoingoutofAHITS算法J.Kleinberg.Authoritativesourcesinahyperlinkedenvironment.InProc.NinthAnn.ACM-SIAMSymp.DiscreteAlgorithms,pages668-677,ACMPress,NewYork,1998Hub页面:指向权威页面的页面,例如目录页面等。Authority页面:被很多页面指向的页面HITS算法Step1:构造子图S查询结果页面R(前n个)R中每一个页面所指向的页面指向R中页面的页面(可
8、能要限制数量)Step2:迭代计算页面的h值和a值每一个页面的h(p)=1,a(p)=1定义两个操作:I:a(p)=∑(q,p)∈Eh(q)O:h(p)=∑(p,q)∈Ea(q)HITS算法(续)Step3:重复Step2k次(可以证明上述迭代可以
此文档下载收益归作者所有