潜在语义标引及其应用.ppt

潜在语义标引及其应用.ppt

ID:52467582

大小:1.73 MB

页数:41页

时间:2020-04-07

潜在语义标引及其应用.ppt_第1页
潜在语义标引及其应用.ppt_第2页
潜在语义标引及其应用.ppt_第3页
潜在语义标引及其应用.ppt_第4页
潜在语义标引及其应用.ppt_第5页
资源描述:

《潜在语义标引及其应用.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、潜在语义标引及其应用WangJiminNov11,2005Outline矩阵的奇异值分解(SVD)LSI与SVDLSI的应用Introduction在文档集合中假设词语之间具有独立性(正交假设),一篇文档可用向量空间模型(VSM)中的一个向量来表示,进而计算查询与文档间的相似性,进行信息检索但自然语言中词语的同义性和多义性是普遍存在的,如“计算机与电脑”、“virus”、“bank”。词与词之间是有关联关系的Introduction如何修正“正交假设”的缺陷与不合理性,并将文本检索从离散的索引词匹配深入到概念或语义匹配的层面上,就成为代数检索迫切需要解决的问题M.W.Berry和S.

2、T.Dumais在20世纪80年代末提出了一种新的信息检索模型:潜在语义标引(LatentSemanticIndexing,LSI),它可以看作经典向量空间模型(VSM)的一种改进IntroductionLSI是一种建立在统计之上的学习方法:它试图发现对象之间的关联模式及其隐藏的对象间的结构关系。LSI方法最初应用于文本信息检索领域,它可以有效地解决了同义词和多义词的问题,通过识别文本中的同义词,LSI将信息检索精度提高了10%--30%.随着应用领域的不断拓展,LSI已在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判断和预测、特征抽取(降维)、文本可视化等众多领域中得到了广泛

3、的应用。矩阵的奇异值分解SVD词频矩阵在向量空间模型中,一篇文档可用向量空间模型(VSM)中的一个向量来表示。由此,构造词频矩阵。例如:Acollectionofdocuments对应词频矩阵词频矩阵这样的词频矩阵一般是非常稀疏的,如在Trec文档集合中,非零值占:0.03%。上述矩阵取值可以是tf*idf等权值。AT*A与A*AT各自表达一定的含义:AT*A表示文档-文档间的关联矩阵,A*AT表示词语-词语间的关联矩阵.AT*A与A*AT文档-文档间的关联矩阵对词频矩阵作奇异值分解LSIandSVDLSIandSVDLSIandSVD新矩阵Ak是A的一个k-秩近似矩阵,它在最小平方

4、意义下最接近原始矩阵,即最优的近似矩阵。Ak包含了A的主要结构信息,可以理解为对A的重构,它忽略了词项使用上的噪音数据,由于维数的降低,近似的词项被合并。如:同义词在k维空间中有相似的表示。并且在这个k维空间中,出现在相似文档中的词项也将是近似的,即使它们从未出现在同一个文档中。LSI构造了新的语义空间,具备“概念检索”的特征。LSIandSVDSVD更新策略SVD更新策略:对已经进行了奇异值分解的词频矩阵,若有新的文档或词项加入,主要有两种方法进行SVD更新:重新计算SVD或者直接加入。直接加入是一种简单的更新策略,如图分别为直接加入p个文档或q个词项。SVD更新策略K值的选取Ad

5、emonstrationofLSI17booktitlesfrombookdemodemoK=2Forducments,(aboveformula)plotSomeclusteringCanbefound,Suchas:B4,(bycosinesimilar)queryQuery:plot(x,y)Query-plotSomesimilardocumentscanbegotbycosinemeasure.ComparisonwithlexicalmatchingApplicationsofLSI:ApplicationstoIRLSIisanalgebraicmodelforIR.(

6、VSMAlternative)ApplicationstoIRRelevancefeedback:Rocchio’smethodApplicationstodimensionsReducedApplicationstoinformationfilteringApplicationstoinformationfilteringApplicationstoinformationfilteringOtherApplicationsQuery:canrepresentedbyterms,documentsorcombinationsofthetwo(asinrelevancefeedback

7、).Objectsreturned:documents,termsOtherApplications–cross-languageretrievalOtherApplications–modelinghumanmemoryOtherApplications–Outline矩阵的奇异值分解(SVD)LSI与SVDLSI的应用ReferenceM.W.BerryS.T.DumaisandG.W.O’brien(1995),UsingLinearAlgebraf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。