于潜在语义分析的个性化查询扩展模型

于潜在语义分析的个性化查询扩展模型

ID:38263051

大小:902.53 KB

页数:3页

时间:2019-05-25

于潜在语义分析的个性化查询扩展模型_第1页
于潜在语义分析的个性化查询扩展模型_第2页
于潜在语义分析的个性化查询扩展模型_第3页
资源描述:

《于潜在语义分析的个性化查询扩展模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第36卷第21期计算机工程2010年11月Vol.36No.21ComputerEngineeringNovember2010·软件技术与数据库·文章编号:1000—3428(2010)21—0043—03文献标识码:A中图分类号:TP311基于潜在语义分析的个性化查询扩展模型王卫国,徐炜民(上海大学计算机工程与科学学院,上海200072)摘要:为在信息检索系统中获得更好的查询效果,提出一种混合的个性化查询扩展模型。通过潜在语义分析建立潜在语义空间,并在潜在语义空间中计算得到查询的概念相关扩展词和兴趣相关扩展词,不但有效解决了词典问题,而且满足了不同用户需求多样性和用户多兴

2、趣点的需求。实验表明,该算法能够较好地提高搜索引擎系统的查全率、查准率,以及信息检索效率。关键词:潜在语义分析;用户兴趣;查询扩展;个性化推荐;信息检索PersonalizedQueryExpansionModelBasedonLatentSemanticAnalysisWANGWei-guo,XUWei-min(CollegeofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200072,China)【Abstract】Inordertoimprovethequalityofinformationretr

3、ievalsystems,thispaperproposesacomplexandpersonalizedmodelofqueryexpansion.Theproposedapproachconstructsalatentsemanticspacetogetsemanticconceptrelatedandinterestrelatedwords.Inthisway,themodelsolvesthefamousvocabularyproblemandmeetsvarioususers’needs.Experimentsshowthisalgorithmcansignifi

4、cantlyimproveprecision,recallandefficiencyininformationretrieval,meetingdifferentusers’requirementsinsearchenginesystems.【Keywords】latentsemanticanalysis;userinterest;queryexpansion;personalrecommendation;informationretrieval⎛⎞xx?x1概述11121n⎜⎟互联网络信息内容的爆炸式增长,使得高效率和个性化⎜⎟xx2122?x2nX=0⎜⎟@@@的信息检

5、索技术越来越受到人们的重视。目前的搜索引擎系⎜⎟⎜⎟⎝⎠xxx?统大多采用的是关键词匹配的算法进行,对用户输入的查询mm12mn[1]通常情况下,词汇-文档矩阵X为稀疏矩阵。LSA通过关键词进行文档匹配,利用TF-IDF算法进行相关度衡量。0由于现实语言中存在大量的多义性和同义词现象(词典问奇异值分解和降维来获得原矩阵的一个低维近似矩阵。奇异[2]值分解定理保证了这种分解的可行性。题),片面的关键字匹配将严重影响查询的质量。同时这种T信息检索方式也没有考虑不同用户的实际查询需求,即没有XUV=Σ0000[3]理解用户的查询意图,往往得不到很好的检索效果。其中,U、V为分别为

6、m阶、n阶标准正交阵;Σ为m×n阶00潜在语义分析(LatentSemanticAnalysis,LSA)是一种通矩阵,且只有对角元不为0。U的列向量和V的行向量分别00过建立概念空间的方式来获得对词语和文档的语义理解和语称为左奇异向量和右奇异向量,Σ的对角元σ(1r=,2,,?r[4]义联系,其基本思想是认为文档中词语之间存在某种潜在min(,))mn为奇异值。的语义关系。通过这些语义关系,可以识别同义近义词,区选择最大的k个奇异值以及对应的矩阵U和V中相关00别多义词,提高文档表示准确性。LSA方法已经在信息检索[5]的奇异向量,可以得到原矩阵X的k维近似矩阵。这样的近

7、系统等系统上有了很好的应用效果。实验证明,它比传统似不但将差异保持得很小,而且去除了原稀疏矩阵中大量的的向量空间技术有了很好的改善。本文通过对检索文档库和无关词以及同义词和多义词等噪声信息,将词汇和文档都映用户访问日志分别进行聚类分析,并对聚类得到的概念群和射到了一个低维的语义空间。U的行向量u可以作为关键词i兴趣群进行LSA分析,计算用户提交查询词的概念相关关键t在此潜在语义空间中的表示,V的列向量v可以作为文档词和兴趣相关关键词,给出最相关的个性化查询扩展。实验ij表明,该算法能有效地提升搜索引擎系统的性能。d

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。