欢迎来到天天文库
浏览记录
ID:32544647
大小:6.97 MB
页数:116页
时间:2019-02-11
《信息检索中信息需求域的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、删性声明f㈣必本人声明:所呈交的学位论文是本人在导师的指导下进行的研究212作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内墓古太学及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:指导教师签名:门期:止凸卫粤日期:刁枷舡拉在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部
2、门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。学位论文作者签名:日期:湮[!-fl:l/指导教师签名:方俘Ft期:五垃:!!!!内蒙古大学博士学位论文信息检索中信息需求域的研究摘要信息检索作为信息获取的手段,是信息处理的重要内容,是当前信息
3、处理研究领域中的研究热点。信息检索主要包括三个方面的内容:信息需求表达、文档表达和检索模型。其中,需求表达是一个重要的环节。只有当需求被正确地理解和表达时,才有可能得到好的检索结果;否则,如果不能很好地表达需求,再好的检索系统也无法得到好的检索结果。当前,机器检索本质上是基于关键词匹配的检索,将用户查询请求假定为是对用户信息需求的一个准确描述。但事实上,查询请求往往不能准确地描述用户的信息需求,这将不可避免地导致不太理想的检索结果。为了更好地描述和表达用户的信息需求,通常使用相关反馈的方法。相关反馈(包括用户相关反馈和
4、伪相关反馈)方法试图从反馈的文档中寻找一组关联词项以增强用户的初始查询请求。实验显示,这种处理方法有一定的效果。然而,注意到这些词项的选取只是一种启发式的想法,通常假定用户的信息需求具有一个准确的描述。相关反馈方法试图利用反馈信息寻求用户需求的准确描述,但实际上用户需求的准确描述是难以得到的。这种利用相关反馈的方法进行的查询扩展只是对用户信息需求的一种猜想,并不准确。在本文中,我们采取了不同的方法。我们假定需求是一个语义信息检索中信息需求域的研究范围。一开始,用户使用初始查询提出查询请求,当我们获得了一些反馈信息后(用
5、户相关反馈或伪相关反馈),我们就能够建立一种对信息需求更好的描述,但这种描述不是试图去建立对信息需求的准确描述,而是概括性地去框定一个需求的范围。我们使用反馈信息建立需求的下界垦和上界良,从而界定需求的一个范围。下界对应反馈文档的共有部分,上界对应反馈文档的全部内容。论文导出了需求的下界和上界,得到了需求域的两个边界,从而建立了需求域模型I=(B,夏)。信息需求域具有以下特点:(1)信息需求域的下界表达了信息需求集中关注的内容,代表了信息需求的精度,也代表了信息需求的内涵;(2)信息需求域的上界包含了信息需求的延伸和扩
6、展的内容,代表了信息需求的广度,也代表了信息需求的外延;(3)信息需求域较为松散地晁定了用户信息需求的一个范围。论文中给出了建立需求域的两种机制:用户相关文档反馈机制和伪相关文档反馈机制。用户相关文档反馈机制要求用户从初始查询结果中标注反馈若干个相关文档,用这些文档建立信息需求域。伪相关文档反馈机制从初始检索结果中自动选取前n个(topn)文档,用这n个文档建立需求域。此方法的优点是自动化,无需用户参与,缺点是由于是伪相关文档反馈的结果,所反馈的文档不一定都是用户所需要的文档,因此,所得到的信息需求域是用户需求域的近似
7、域。论文在需求域基础上,分析了文档相似度的计算方法,建立了内蒙吉大学博士学位论文需求域基础上的相似度计算模型。论文在通用的TREC测试集上通过一系列实验对所建立的模型进行了模型训练和分析,并进一步进行了一系列检索性能对比实验,以验证其有效性。在检索性能对比实验中,将所建立的需求域基础上的相似度计算模型与三种经典的模型(伪相关反馈语言模型Mi)【fblddir、伪相关反馈tfidf模型Fbtfidf以及伪相关反馈概率模型Fbokapi)进行了对比,对比实验结果显示,需求域基础上的相似度计算模型的检索性能得到了提高,表明所
8、建立的模型是有效的,结果令人满意。与传统的方法相比较,传统的方法往往试图建立信息需求的一种准确的描述,而本文则是为信息需求建立一种较为松散的描述,使用需求域的方法去界定信息需求的一个范围。概况起来,论文研究的主要创新点为:(1)提出了用户信息需求域的概念,给出了确定信息需求域的方法;、(2)提出了一种基于粗糙集的信息需求域的数学模
此文档下载收益归作者所有