欢迎来到天天文库
浏览记录
ID:52467582
大小:1.73 MB
页数:41页
时间:2020-04-07
《潜在语义标引及其应用.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、潜在语义标引及其应用WangJiminNov11,2005Outline矩阵的奇异值分解(SVD)LSI与SVDLSI的应用Introduction在文档集合中假设词语之间具有独立性(正交假设),一篇文档可用向量空间模型(VSM)中的一个向量来表示,进而计算查询与文档间的相似性,进行信息检索但自然语言中词语的同义性和多义性是普遍存在的,如“计算机与电脑”、“virus”、“bank”。词与词之间是有关联关系的Introduction如何修正“正交假设”的缺陷与不合理性,并将文本检索从离散的索引词匹配深入到概念或语义匹配的层面上,就成为代数检索迫切需要解决的问题M.W.Berry和S.
2、T.Dumais在20世纪80年代末提出了一种新的信息检索模型:潜在语义标引(LatentSemanticIndexing,LSI),它可以看作经典向量空间模型(VSM)的一种改进IntroductionLSI是一种建立在统计之上的学习方法:它试图发现对象之间的关联模式及其隐藏的对象间的结构关系。LSI方法最初应用于文本信息检索领域,它可以有效地解决了同义词和多义词的问题,通过识别文本中的同义词,LSI将信息检索精度提高了10%--30%.随着应用领域的不断拓展,LSI已在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判断和预测、特征抽取(降维)、文本可视化等众多领域中得到了广泛
3、的应用。矩阵的奇异值分解SVD词频矩阵在向量空间模型中,一篇文档可用向量空间模型(VSM)中的一个向量来表示。由此,构造词频矩阵。例如:Acollectionofdocuments对应词频矩阵词频矩阵这样的词频矩阵一般是非常稀疏的,如在Trec文档集合中,非零值占:0.03%。上述矩阵取值可以是tf*idf等权值。AT*A与A*AT各自表达一定的含义:AT*A表示文档-文档间的关联矩阵,A*AT表示词语-词语间的关联矩阵.AT*A与A*AT文档-文档间的关联矩阵对词频矩阵作奇异值分解LSIandSVDLSIandSVDLSIandSVD新矩阵Ak是A的一个k-秩近似矩阵,它在最小平方
4、意义下最接近原始矩阵,即最优的近似矩阵。Ak包含了A的主要结构信息,可以理解为对A的重构,它忽略了词项使用上的噪音数据,由于维数的降低,近似的词项被合并。如:同义词在k维空间中有相似的表示。并且在这个k维空间中,出现在相似文档中的词项也将是近似的,即使它们从未出现在同一个文档中。LSI构造了新的语义空间,具备“概念检索”的特征。LSIandSVDSVD更新策略SVD更新策略:对已经进行了奇异值分解的词频矩阵,若有新的文档或词项加入,主要有两种方法进行SVD更新:重新计算SVD或者直接加入。直接加入是一种简单的更新策略,如图分别为直接加入p个文档或q个词项。SVD更新策略K值的选取Ad
5、emonstrationofLSI17booktitlesfrombookdemodemoK=2Forducments,(aboveformula)plotSomeclusteringCanbefound,Suchas:B4,(bycosinesimilar)queryQuery:plot(x,y)Query-plotSomesimilardocumentscanbegotbycosinemeasure.ComparisonwithlexicalmatchingApplicationsofLSI:ApplicationstoIRLSIisanalgebraicmodelforIR.(
6、VSMAlternative)ApplicationstoIRRelevancefeedback:Rocchio’smethodApplicationstodimensionsReducedApplicationstoinformationfilteringApplicationstoinformationfilteringApplicationstoinformationfilteringOtherApplicationsQuery:canrepresentedbyterms,documentsorcombinationsofthetwo(asinrelevancefeedback
7、).Objectsreturned:documents,termsOtherApplications–cross-languageretrievalOtherApplications–modelinghumanmemoryOtherApplications–Outline矩阵的奇异值分解(SVD)LSI与SVDLSI的应用ReferenceM.W.BerryS.T.DumaisandG.W.O’brien(1995),UsingLinearAlgebraf
此文档下载收益归作者所有