基于潜在语义分析的文档检索设计方法-论文.pdf

基于潜在语义分析的文档检索设计方法-论文.pdf

ID:57924477

大小:912.79 KB

页数:6页

时间:2020-04-14

基于潜在语义分析的文档检索设计方法-论文.pdf_第1页
基于潜在语义分析的文档检索设计方法-论文.pdf_第2页
基于潜在语义分析的文档检索设计方法-论文.pdf_第3页
基于潜在语义分析的文档检索设计方法-论文.pdf_第4页
基于潜在语义分析的文档检索设计方法-论文.pdf_第5页
资源描述:

《基于潜在语义分析的文档检索设计方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京石油化工学院学报第23卷第2期Vo1.23NO.2JournalofBeijingInstituteof2015年6月Jun.2015Petro—chemicalTechnology基于潜在语义分析的文档检索设计方法张世博,刘博爱,柳朝阳,张宝全(北京石油化工学院计算机系,北京102600)摘要:文档检索系统围绕如何基于语义层面进行检索来展开研究。基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统。首先改进了文档一词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对

2、权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离。实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算。关键词:潜在语义分析;奇异值分解;信息检索;相似度中图分类号:TP391.1文献标志码:A目前,大多数信息检索方法依据关键词匹1潜在语义分析配,即检索到的有关信息与使用者的查询需求具有共同使用的术语,但是自然语言文本中的1.1简介词汇具有多词一义(synonymy)和一词多义从1988年开始,Dumais等在向量空间(polysemy)的特点l_1]。由于多词一义

3、(同义模型基础上,利用线性代数的知识,通过矩阵的词)的大量存在,使用者基于精确匹配的检索算奇异值分解(SingularValueDecomposition,法可能不与相关文件匹配,会遗漏许多用户想SVD)来进行潜在语义分析,简称为LSA(要的东西;另外许多词具有一词多义,因此基于LatentSemanticAnalysis)。所谓以语义为基精确匹配的检索算法又会报告许多用户不要的础的检索,是指被检索到的有关信息与使用者东西,查询可能与不相关的文件匹配,所以关键的查询不一定具有共同使用的术语,而是通过词匹配方法是不精确的。分析二者之间在语义上的关系来完成

4、检索。笔者通过建立一个模型获取单词之间的相潜在语义分析是一种使用数学和统计的方似性。如果2个单词之间有很强的相关性,那法对文本中的词语进行抽取,推断他们之间的么当1个单词出现时,往往意味着另1个同义语义关系,并建立一个语义索引,而将文档组织的单词也应该出现;反之,如果查询语句或者文成语义空间结构的方法。其出发点是文档的特档中的某个单词和其他单词的相关性都不大,征项与特征项之间存在着某种潜在的语义联那么这个单词可能表达的就是另外1个“意系,消除词之间的相关性,简化文本向量的目思”,即潜在语义。的。潜在语义分析被广泛应用到各领域,如王卫国等将潜在语义分析技

5、术应用到个性化的查询扩展中。张秋余等_4在垃圾邮件过滤中将LSA与MD5结合应用取得了明显的效果。LSA假设文本中存在某种潜在的语义结收稿日期:2O14—11-14基金项目:北京石油化工学院国家级大学生创新训练计划资构,隐含在文本中词语的上下文使用模式中,可助(2O15JOOO93)作者简介:张世博(1978一),男,研究生,讲师。研究方向为机通过统计方法获得。使用LSA可以利用词的器学习、自然语言处理,E—mail:zhangshibo@bipt.edu.cn。共现情况,如果单词A和单词C共现,B和C38北京石油化工学院学报2015年第23卷共现,L

6、SA可以找到A和B之间的隐含关系,词的相关性。中间的矩阵则表示文章主题和将词和文档映射到潜在语义空间,从而去除原keyword之间的相关性。因此,对关联矩阵A始向量空间中的一些噪音,提高信息检索的精进行奇异值分解,就完成近义词分类和文章的确度,其核心思想是通过奇异值分解,将文档向分类。量和词向量投影到一个低维空间,使得相互之1.2算法步骤间有关联的文档即使没有相同的词时也能获得假设有N篇文档D一{d,⋯,d)和M个相同的向量表示。隐性语义分析可以处理向量单词,w一{W”,WM),再预先设置K个语义空问模型无法解决的多词一义问题。Z一{1,⋯,K)。[=

7、=======U通过奇异值分解把特征项和文档映射到同首先,建立1个N*M的文档矩阵A。矩一个语义空间_6],对文档矩阵进行计算,提取K阵A中的每1项分别对应了D,出现的统计个最大的奇异值,以近似表示原文档,可以大幅频率。度降低矩阵的维数,一般文本集文档数量众多,接着,对这个矩阵进行奇异值分解。分解或达到百万级别,需要用1个大矩阵A来描述式为:这百万篇文章及其词的关联性:A(*m)一己,(*)E(咒*)V(*)口1N(1)●●●然后,按照大小排序保留奇异值矩阵E的A==n£NK个特征值,K个奇异值对应的左右奇异向量●●●U和进行相应抽取,即可用K维矩阵A

8、近nMN似表示A:矩阵单元值a表示语料库中第个词在A(*m)一U(*忌)E(是*忌)V(m*)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。