信息检索查询词权分配方法的研究.pdf

信息检索查询词权分配方法的研究.pdf

ID:57743245

大小:4.66 MB

页数:96页

时间:2020-03-27

信息检索查询词权分配方法的研究.pdf_第1页
信息检索查询词权分配方法的研究.pdf_第2页
信息检索查询词权分配方法的研究.pdf_第3页
信息检索查询词权分配方法的研究.pdf_第4页
信息检索查询词权分配方法的研究.pdf_第5页
资源描述:

《信息检索查询词权分配方法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、'{年曼’套/论文题目研究生:闺堂蹇指导教师:直迸塞数援专业:让簋扭廑旦这丕研究方向:蟹鱼星值:垦处理所在学院:进簋扭堂暄2011年6月l5目tttilI黟‰岁-∥、,蕾#备:。\JL一_日在学期间研究成果使用承诺书‘本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果

2、(含计算机软件、程序)属于、内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。、学位论文作者签名:l塑要≥乞’吐,--期:型出6,!£指导教师签名:—丝期:垫丛』。心●▲·一●内蒙古大学硕士学位论文信息检索查询词权重分配方法的研究摘要因特网的发展使得人们可访问的信息资源越来越多,远远超过了人工筛选的处理能力,人们迫切的需要一种能够快速准确地为其找到所需信息的手段。信

3、息检索这个研究领域正是应此需求而诞生的。信息检索所关心的问题是:信息的表达,存储,组织与获取等方面的问题。本文主要从信息检索中的查询(Query)的表达方法入手来对信息检索技术加以研究。现在的搜索引擎,对于短查询(ShortQuery)的检索效果一般来说比长的查询(LongQuery)要好。这主要是由于当今的大多数搜索引擎将查询中的查询词(xerm)以相同的重要性来看待,这使得在最终的检索结果中,倾向于Query中不重要的Term的文档同样会得到很高的排序(Rank)得分,从而导致真正与查询有较强的语义

4、相关性的文档排到后面,最终影响检索性能。本文正是立足于传统方法在这一方面的不足进行研究的,力图寻求一种方法来确定Query中各Term在用户信息需求(InformationNeed)的表达中所起的重要性,并利用不同的Term具有不同重要性这一特点,通过在检索阶段对它们区分对待来提高最终的整体检索效果。本文的基本思想是,对于自然语言所构成的查询,查询词的重要性在语言的组织结构本身中就有很强的体现,也就是说,我们可以利用这些信息来估计查询词的重要性。本文中所用到的核心方法为隐马尔可夫模型(HiddenMar

5、kov。Model,HMM),我们将在文中详细讨论使用该模型进行权重分配的好处,并通过大量的实验对比不同阶次的马尔可夫模型在Term权重分配上的效果,最终得出最优的方法。实验结果显示,我们的方法可以准确的将大部分Term分配到其相应的权重级别。同时,我们发现,即便我们线性地将这些离散的权重级别映射到实数域的权重上,我们依然可以在最终的检索结果中观察到一致的具有统计显著性的性能提升。总之,大量实验证明本文中所采用的方法是有效的。..基于隐马尔可夫模型的信息检索查询词权重分配方法的研究———————————

6、———————————————————————————————————————————————————=二————————一一.关键词:信息检索,查询词权重,隐马尔可夫模型,概念重要性III‘.-Thissituationmadethetechnologywhichcanfastandpreciselylocatestheinformationallurgentneed.Informationretrievalisafieldemergedaimingtosatisfythisneed.Itfocuse

7、sitsattentiononeveryaspectconcerninginformation,rangingfromtherepresentationandstoragetotheorganizationandacquisition.Thisthesismadeitsstandpointonthequeryrepresentationforinformationretrieval.Ithasbeenobservedthatshortqueriesusuallyperformwellthantheirc

8、orrespondinglongversionswhensubmittedtothesameretrievalengine.Thisismainlybecausemostofthecurrentretrievalmodelstakingthetermsinthequeryasequallyimportant.Thismakesthedocumentsthatapttonon.importanttermsrankedhigherthanthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。