文本处理与信息检索

文本处理与信息检索

ID:37294553

大小:384.10 KB

页数:59页

时间:2019-05-12

文本处理与信息检索_第1页
文本处理与信息检索_第2页
文本处理与信息检索_第3页
文本处理与信息检索_第4页
文本处理与信息检索_第5页
资源描述:

《文本处理与信息检索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本处理与信息检索第二讲非传统的IR方法传统IR检索模型的缺陷1、单个单词不包含用语言编码的所有信息2、一个单词可能有多种含义,即一词多义3、大量的单词可能具有相似的含义,即多词一义4、词组的含义往往超过其中的单词含义的总和5、对词组的检索出现冗余信息6、查询还是基于关键字,不能对句子进行分析查询7、不能实现跨语言检索改善IR性能的方法将NLP(自然语言处理)技术运用于IR中使用领域知识改善IR性能基于自然语言处理的智能搜索引擎体系结构框图自然语言处理器知识库用户接口概念提取文档处理查询扩展个性化处理自动文摘we

2、b网页下载索引模块索引数据库检索模块查询修正初始查询检索结果按权排序反馈查询S+S-知识库有类似于人类的背景知识和相应的推理规则组成词法及句法知识语义及语用知识常识语料库词典数据库禁用词表反向词汇统计表概念提取利用设定程序对用户输入的查询语句进行自动分词,并经过句法及语义分析,去掉无用的虚词,获得能正确表达查询句意思的概念性词或词组、短语,并以此作为查询的基本输入概念到检索数据库进行检索。概念提取的关键是要有一套完美的语义分析系统经过概念提取后,用户输入被处理成一系列独立的词和短语的集合,在此统称为概念,取其不同

3、的概念构成概念集Q,并且概念间是“and”关系。Q={t1,t2,…,ti,…,tn}如果计上它们的频数则变为:Q’(q)={(t1,f(q,t1)),(t2,f(q,t2)),…,(tn,f(q,tn))}其中f(q,ti)表示查询语句被处理概念ti的相应频数查询扩展查询扩展将用户输入的原始查询请求经过概念提取后,自动地根据概念集Q中的内容,去查询同义词典,加入新的概念。扩展的概念由Q中各概念的同义词组成,即最终的查询请求是由Q中各概念的同义词组成。Q={t1,t2,…tn}经查询扩展以后为U={T(t1),T

4、(t2),…,T(tn)},其中T(ti)是同义词典中与ti有相同语义码的概念集。将U加上频数可得U’={(T(t1),f(q,t1)),(T(t2),f(q,t2)),…,(T(tn),f(q,tn))}个性化处理该模块长期侦测用户的输入,评估用户的兴趣,对用户的多次输入进行加权处理后再去检索模块,每隔一段时间将检索结果中相似度最高的几个文档发送给用户。不断地从查询扩展模块中获得经处理后的用户查询信息U和U’的值,对概念集取(这里的概念集取指将概念扩展为具有相同语义码的概念集)并运算,相应的权值取和,即U+==

5、{T(t1),T(t2),…,T(tn)}其中M表示用户的总计查询次数对中概念的权值设一阀值函数f(q,M),给中的概念实行剪枝(a为调解系数)与对应的概念集记为U+(M)将此结果送到索引模块建立查询向量文档处理文档处理既是将文本文档处理为相应的文档表示例如我们用向量空间检索模型来表示文档DiDi=((t1,s1),(t2,s2),…,(tn,sn))其中si是概念ti在文档Di中出现的频数。自动文摘自动文摘是检索时返回文档的简要概述,是语言理解和语言生成的结合。理解,就是对文档中的每一个语句进行句法、语义分析,

6、对全文作篇章分析,然后确定文章的主要意思;生成,则是要选择恰当的词汇和句法方式来表达这个意思。这对自然语言的要求很高,实现较为困难目前生成的文摘大多是摘录性的,即把全文中能表达文章主要意思的句子挑选出来,合在一起作为文摘总结该模型使用了概念提取模块将用户的查询输入进行处理、提炼,去除无用的成分,形成一个能准确表达用户查询的简洁的概念集Q。利用查询扩展模块扩展概念集Q得到Q中各概念的同义概念集Q’,并以此作为查询概念,用以提高引擎的查全率。个性化处理用以监测用户的兴趣,自动反馈用户信息,反馈的信息是用户感兴趣的信息

7、。自动文摘显示的是文档中权重最高的几个概念,这样更能反映文档的内容。经过自然语言处理器处理过的最终查询请求是一系列概念集组成的集合。使用域知识改善IR性能在一个基于知识的IR模型中,针对一个域的信息,称为域知识,它用于把概念、事件和概念与事件之间的相互关系模型化例如,对于题目“多媒体信息检索”,条目“多媒体”、“音频”、“视频”、“图像”、“信息”、“索引”和“检索”都与该题目有关。若用属于该题目的不同权重值的条目构建一个完整的关系树(书上有误),则含有一个或多个这些条目的文档将具有不同的组合权重或与题目有关的相

8、似度。可根据这些相似度进行检索信息检索性能度量度量信息检索性能的三个参数:检索速度:决定检索效率查全率用来测量一个检索系统的效能精确度查全率:测量的是从数据库中检索相关信息项的能力查全率=检索到的相关项的数量/数据库中相关项目的总数精确度:测量的是检索的准确性精确度=检索到的相关项的数量/检索项总数例子假定一个数据库总共有1000个信息项,其中10个信息项是与一个具体的查

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。