欢迎来到天天文库
浏览记录
ID:38124494
大小:188.49 KB
页数:3页
时间:2019-05-24
《基于潜在语义分析的信息检索1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据f30卷第2期计算机工程2004年1月’,01.30№2ComputerEngineeringJanuary2004·基金项目论文·立章一号l1000---3428(2004)02---'0058--'03文奠标识码tA中田分羹号-TP391基于潜在语义分析的信息检索盏杰,壬伯。孟浩山(南京大学计算机科学与技术系,软件技术研究所国家重点实验室,南京210093)■饕:潜在语义分析是一种用于自动实现知识提取和表示的理论和方_j虫。它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章彳卜绍r基于措在语义分析的文本信息检索的基本思想
2、、特点以及实现方法。关嘲:潜在语义分析;信息检索;语义;向量空间模型TextInfbrmationRetrievalBasedonLatentSemanticAnalvsisGAIJie,WANGYi,WUGangshantst雠eKey‰吼叫of.InstituleofSoftwareTechnology,Compptersckn∞Department,NanjingUnlversity,N枷ing210093)[Abstrad]Latersemanticanalysis(LSA)isatheoivandmethodforextractingandr
3、epresentingthecnntcxtualqJSagemeaningofwordsbystatisticalcomputationsappliedtOalargecorpusoftext.Thispaperintroducestheideas.charactersandimplementationoftextinfurmatimretrievalbased帅LSAIKeyWOrdsJL趾enlsemanticanalysis;Informationretdcvalcontext;semantic;Vectorspatialmodel(VSM)1氍
4、述传统的基于文本关键字的向量空间模型(VSM),用D产{dmd:Ⅳ一,d。}表示m个关键字和n个文本构成的文本集合,其中Dr=,-{dmdn⋯,氐)。是文本向量,并基于此进行文本过滤、检索的处理。它的优点在于将非结构化的文本表示为向量形式,使得各种教学处理成为可能。但是,向量空间模型关于词语之间关系相互独立的基本假设(正交假设)在实际情况下很难得到满足,文本中出现的词往往存在一定的相关性.在某种程度上会影响计算的结果。同时,这种基于关键字的文本处理方法,主要依据词频信息,两个文本的相似度取决于它们拥有的麸同词汇的数量,因而无法分辨自然语言的语义横栅性。
5、自然语言中语义的准确表达不仅取决于词忙本身的恰当使用,也取决于上下文对词义的限定,如果忽视上下文语境的限制,仅以孤立的关键字来表示文本的内容,势必影响信息检索结果的准确性和完整性。潜在语义分析(1atentsemanticanalysis,LSA)是一种通过分析大量昀文本集,自动生成关键字-概念(语义)之间映射规则的方法。它假设词语在文本中的使用模式内存在着潜在的语义结构。同义词之间具有基本相同的语义结构,多义词的使用必定具有多种不同的语义结构,而词语之问的这种语义结构体现为它们在文本中的出现频率上也具有一定的联系,通过统计学方法,提取并量化这些潜在的
6、语义结构,进而消除同义词、多义词的影响.提高文本表示的准确性。基于LSA思想的文本信息检索[Deerwestef&Dumais90】I”方法,与SMART中典型的关键字向量方{击相比,有效地解决了同义词和多义词的问题,将信息检索速度提高了10~30%[Dumais,199叩1,LSA壹全率优势更为显著。与传统的向量空间模型相比,LsA具有以下这些特点:(I)LSA利用潜在的语义结构表示词条和文本,将词条和文本映射到同一个k维的语义空问内.均表示为K个因子的形式.向量的含义发生了很大的变化,它反映的不再是简单的词条出现频率和分布关系.而是强化的语义关系,
7、在保持原始的大部分信息的同时,克服了使用传统向量空间表示方法时产生的多义词、同义词和单词依赖的现象。同时,在新的语义空间中进行相似度分析,比使用原始的特征向量具有更好的效果,因为它是基于语义层而不仅是词舡剧”。(2)由于词和文本被映射到同一k维的语义空间,因此在LSA模型中不仅能够进行传统的词-词、文本-文本之间的相似关系分析,而且能够分析词和文本之问的相似关系,与传统的向量空问模型相比,具有更好的灵活性。(3)对于原始的词-文本矩阵,通过LSA分析提取出K维语义空间。在保留大部分信息的同时大大得降低了空间维度,这样用低维词、文本向量代替原始的空间向量
8、,可以有效地处理大规模的文本库。(4)LSA不同于传统的自然语言处理过程和人工智能程序,它是完
此文档下载收益归作者所有