哈工大信息检索-提高向量空间模型在中文检索中的性能

哈工大信息检索-提高向量空间模型在中文检索中的性能

ID:40498301

大小:102.21 KB

页数:5页

时间:2019-08-03

哈工大信息检索-提高向量空间模型在中文检索中的性能_第1页
哈工大信息检索-提高向量空间模型在中文检索中的性能_第2页
哈工大信息检索-提高向量空间模型在中文检索中的性能_第3页
哈工大信息检索-提高向量空间模型在中文检索中的性能_第4页
哈工大信息检索-提高向量空间模型在中文检索中的性能_第5页
资源描述:

《哈工大信息检索-提高向量空间模型在中文检索中的性能》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、HarbinInstituteofTechnology课程研究报告课程名称:信息检索技术及应用报告题目:提高向量空间模型在中文FAQ系统中的性能所在院系:软件学院所在学科:软件工程学生类别:研究生学生姓名:赵菁菁学生学号:16S137045选课时间:2017年春季学期教师批阅成绩:哈尔滨工业大学提高向量空间模型在中文FAQ系统中的性能FAQ(常见问题)系统为用户提供了一种问题检索系统(参考百度知道、搜搜问问和新浪爱问)[1],用户在搜索框中输入问题关键字,系统将关键字与数据库/文件中的问题进行匹配,最终返回问题和对应答案(问题-答案对)。与英文检索相比,中文检索要困难得多,因为中文的处

2、理比较复杂[2]。英文单词之间有空格隔开,这让分词变得简单得多;但汉字间没有空格,如果要对中文问题进行分词,可能需要与语料库进行比对,效率比较低下,有时需要另辟蹊径。在为VSM建立一个词-文档矩阵时,可能会产生很多种矩阵形式,不同的矩阵在最终检索时的性能也不一样,比如一个问题是“中国的主席是谁?”,这句话根据不同方法可以分解成不同结果:IKAnalyzer2012分词结果:中国,的,主席,是,谁一元模型分词结果:中,国,的,主,席,是,谁二元模型分词结果:中国,国的,的主,主席,席是,是谁利用IKAnalyzer2012分词器包分词的结果虽然更加人性化、看起来更加准确,但这是要付出效率

3、的代价的,分词器需要根据现有语料库进行比对,进而分割出合适的词语。FAQ系统中的问题的长度一般较短,如果还使用分词技术,显然是杀鸡用牛刀了,如果只是简单把一元模型和二元模型的结果合并起来用于相关性计算,同时使用语义相似度,效率可能会提高很多,本文提出了一种跳过分词步骤的较高效的检索方式,可以广泛用于FAQ系统。向量空间模型向量空间模型(VSM)在信息检索中有广泛应用。GerardSalton在开发SMART信息检索系统时最早提出并使用该模型方法[3]。VSM的整体思想是通过词(Term)向量表示查询和语料库中的文档:Di=(wi,1,wi,2,…,wi,m)(1)其中wi,j是第j个词

4、的权重,m是文档空间的维度。一个词可以是一个字、关键字或词语。利用这种向量表现形式,自然语言中文档间相关性的计算就转化成为向量间相关性的计算。判断向量相关性最流行的方法就是看两向量间的角度差,实际中常用余弦值计算:SimQ,Di=Q∙DiQ∙Di=j=1mwQ,j×wi,jj=1mwQ,j2×j=1mwi,j2(2)其中Q是查询向量,Q∙Di是查询向量和文档向量的內积。Q和Di分别是Q和Di的模。定义相关词权重的方法有很多,常见的是TF-IDF方法[3,4]。一个词在一个文档中的权重是由它的词频(tf)和逆文档频率(idf)确定的:wi,j=tfi,j×idfj=tfi,j×logNd

5、fj(3)其中wi,j是第j个词在文档i中的权重,N是文档集中的文档总数,dfj是包含该词的文档个数。词频描述了一个词在一个文档中出现的次数,逆文档频率显示了一个词在整个文档的空间中有多不常见。总体来看,词的权重显示了该词在当前文档中区别于文档空间中其他文档的重要性,比如“面”这个字在一个文档中出现了很多次,但“的”字在很多文档中都出现了很多次,显然对于两个文档来说,“面”比“的”对于区分性的贡献更大。可见VSM主要包括两步:首先,怎样确定索引词(项);其次,如何确定索引词(项)的权重。第一步非常重要,因为是这些词决定了两篇文档的相似度。如果两篇文档没有重叠部分,这两篇文档的向量是正交

6、的(余弦值为0),这意味着它们是不相关的。对于英语来讲,在确定词时最常用的是一元模型;对于汉语来讲,分词和二元模型在确定词时比较常用[2,5-7]。分词是把文档分割成有意义的元素的最自然的方法,汉语信息检索的VSM中基本都采用这种方法。二元模型也有其价值,因为两字短语在汉语中占有比例很高。在Lucene的2.3版本中,汉语、日语和汉语的默认分词器就是基于二元模型的,一元模型的查全率较高但精度较低(FAQ系统中的查全与精度的定义与传统定义不同,具体定义在之后会给出),如果把一元模型和二元模型结合在一起,结果的数量和精度应该会比单独分词和二元模型方法高。此外,通过应用简单的词汇语义学知识和

7、文档长度信息,性能还可以进一步提升。系统架构中文FAQ系统架构图如图1所示,该系统由语言处理、向量空间模型索引、一元模型与二元模型的线性评分组合、排序和答案选择模块组成。对于每个查询输入,系统首先进行一些语言处理,比如像停用词移除(如:“了”、“呢”、“的”等词)、简单的词汇语义分析等。之后文本会分别基于一元模型和二元模型分词。TF-IDF评分是根据公式(3)计算的。接下来,会形成词向量,两种模型的索引器开始通过公式(2)计算相似性。之后一元模

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。