情报检索发展的几个前沿问题

情报检索发展的几个前沿问题

ID:22916930

大小:55.50 KB

页数:17页

时间:2018-11-01

情报检索发展的几个前沿问题_第1页
情报检索发展的几个前沿问题_第2页
情报检索发展的几个前沿问题_第3页
情报检索发展的几个前沿问题_第4页
情报检索发展的几个前沿问题_第5页
资源描述:

《情报检索发展的几个前沿问题》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、情报检索发展的几个前沿问题[摘要]介绍现阶段情报检索研宄中的几个前沿问题,包括自然语言检索、跨语言检索、智能信息检索、基于语义的图像和视频检索及检索系统评价研宄的最新发展情况。语言、智能和语义等问题相互关联,近年来又一同推动着信息检索的发展。检索评价研宄也有针对性地引导着情报检索的发展方向。结语部分论述这些问题在情报检索前沿发展中的本质联系及未来的发展方向。[关键词]自然语言检索跨语言检索智能检索基于语义的检索检索系统评价[分类号]G252近年来,自然语言检索、跨语言检索、智能信息检索和基于内容的检索发展较快,成为情报检索研宄中的前沿和热点问题。基于内容的检索将情报检索的研宄对象从文本扩

2、展到多媒体信息资源,基于概念的检索是其进一步发展,后者同时将多媒体信息资源的物理内容与用户的认知语义结合起来,在内容的基础上纳入用户的认知和情感等因素。本文就是在当前发展现状的基础上,论述这四个问题。同时,介绍情报检索的评价研宄,它指导着情报检索的发展方向,尤其是TREC,堪称信息检索系统研究的指南针和风向标。1自然语言检索的语义问题语义问题是自然语言检索中的核心问题。目前,情报检索仍是“bagofwords”的检索方式,因而词汇的意义(Meaning):即语义(Semantic)便处在举足轻重的位置。但是,考虑到效率和及时性因素,对语义的建模和计算不能使用过于复杂的模型。目前,可以通过

3、两种途径来解决这一问题:一是通过概率统计的方法;另一是通过本体的方法。1.1通过概率统计的方法解决语义问题语言模型(LanguageModel)是近年情报检索领域的研宄前沿。这一概念最初用于语音识别,是指针对词序的统计模型。在情报检索中引入语言模型可以:①直接用于情报检索的概率模型;②彰显情报检索模型中统计估值的重要性t③对给定查询q,判定某一文献d的分值p(q

4、d)。现有的语言模型研宄的前提假设较之以往的概率模型并没有太大改变。但是,对于其中参数的估值更为显式化,也更加精准。翟成祥和Lafferty则深入到语言模型中的平滑手段,在比较几种平滑算法的基础上,提出应用于自然语言检索2阶段平

5、滑,并认为」elinek-Mercer可用于查询建模。LiuXiaoyong和Croftw.B.介绍了在语言模型中主要使用的查询、翻译和相关三种模型以及参数和语义两种平滑方法。概率统计方法解决语义问题的第二种方法是词义消歧。传统的情报检索中通常使用聚类、主成份分析和潜在语义索引等方法实现。而在自然语言处理中,词义消歧通常通过统计学习的方法实现。两者相比,前者的效果不如后者,但是开销小;后者能够使消歧的效果更精准,但是不适合用于提供在线服务。K.SparckJones认为在使用自然语言处理的方法处理情报检索问题时要“吝啬”。结合实际情况而言,这样的思想不无道理。1.2通过本体的方法解决语义

6、问题一些研宄将本体纳入到自然语言检索研宄中,这对从理论上认识自然语言的语义问题有着重要的作用:汤艳莉和赖茂生对本体应用到自然语言中做了探索性的研宄,认为创建面向检索的本体、本体的动态更新和本体的评价三个问题是本体在自然语言检索应用中要解决的问题;肖洪设计了一个教育领域的本体,并用其提供检索服务;赵丹群则将本体应用到信息检索系统中,解决检索系统中的语义问题。将本体纳入自然语言检索中的好处是概念精准、消歧效果好;但是本体及其逻辑推理开销大、实现复杂。2跨语言检索1.1跨语言检索的研究意义和基本问题因为跨语言检索能够有效地消除数字鸿沟,促进信息交流和利用,降低国际组织和机构的沟通成本,所以近年

7、国内外的研宄机构都不遗余力地投入跨语言检索的研宄之中,并且得到了所属国家和地区的支持。跨语言检索是自然语言处理技术在情报检索中应用最为广泛的领域,但必须注意自然语言处理和情报检索核心任务的差别。首先,跨语言信息检索大量借助自然语言处理,尤其是机器翻译的研宄成果,但是跨语言检索的最终评价体系却是情报检索的评价指标体系。其次,现有的跨语言检索有一个基本的前提假设:“好”的检索结果建立在“好”的翻译结果上。但是,信息检索系统归根到底是偏序的。在研究的早期,好的翻译结果确实能够提供好的检索结果,但在深入研宄中这种影响越来越微弱,甚至很难在实际的实验中观察到这种改善;另一方面,翻译质量建立在庞大的

8、系统开销之上,而信息检索系统难以负担如此昂贵的开销。1.2跨语言检索的匹配与翻译问题跨语言信息检索中的核心问题是翻译问题。从翻译的时间上看,包括查询式翻译、文档翻译和查询式与文档两者均翻译三种选择。但是,人们普遍认为尽管文档翻译效果更好,但开销过大,因此对采用此方法的态度普遍较为慎重,另一方面,在文档翻译中,处于核心地位的是机器翻译,但离情报检索研宄的距离较远。因此,通常选择查询式翻译作为跨语言信息检索的翻译时间。但是,并不是所有的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。