欢迎来到天天文库
浏览记录
ID:52484834
大小:597.00 KB
页数:71页
时间:2020-04-08
《信息获取模型Modeling-I.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2.信息获取模型ModelingI基本概念经典的IR模型结构化文本检索模型浏览模型1ReviewofLastWeek信息检索简介将用户的信息需求转变到查询匹配查询和存储的文档信息评价查询结果与用户需求的匹配程度以下概念的区别Dataretrievalandinformationretrieval初步介绍了索引技术倒排索引为什么使用倒排索引?倒排索引的结构如何?一些压缩技术,包括词表压缩出现位置压缩齐普夫率Zipf’sLaw提出了信息检索中存在的一些问题2前言本周主要介绍IR系统的一些模型为什么要建模?方便深入地分析比较和预测什么是建模?通过理论方法描述系统的本质,忽略一些无关紧要的方面IR系
2、统的一个核心问题就是预测或计算出文档集中哪些与用户查询是相关的、哪些是无关的3文档文档是由文本构成的逻辑单元记录的单元(由文本或其他一些东西组成)能够被存储、检索、显示出的单元实体用来表达某种语义的实体单元unitsoftextgroupedtogetherforapurpose也可能是完全无结构的文本Textaswrittenbyauthorsofdocuments4文档模型文档应当以一种可以被计算机识别的格式或结构来处理和表达文档由文本组成并非文本中的每一个词对于搜索都有意义文档本身往往并不包含可识别的元数据信息,比如作者和文档的标题5文档的表现形式文档应该能够被处理,文档的表达方式能够
3、帮助用户从系统中识别和接受信息识别作者和标题识别文章主题提供总结/摘要对文档进行主题分类6查询处理IR系统通常采用关键词/索引词来处理查询索引词文档关键词或一些被选定来表达文档内容的词文档中的任何词(更一般意义上讲)对于文档可能进行词根处理connect:connecting,connection,connections中文也有词根处理,如:高高兴兴→高兴根据选定的索引词建倒排索引,以便查询使用7DocsInformationNeedIndexTermsdocqueryRankingmatch8结果排名结果排名是指对检索到的文档进行排序,这个顺序反映了文档与用户需求之间的相关程度排序基于相关
4、度计算的一些基本假设进行查询和文档关键词共享同一个词的集合如何定义相关度不同的相关性定义导致不同的IR模型9结果排名在索引词层次的匹配是不精确的用户经常对搜索结果不满意大多数用户并不知道如何正确使用查询的语法,因此查得的结果就会更糟糕Web用户经常会感到不满意如何能够形成好的排名对于IR系统来说至关重要10Retrieval:AdHocandFilteringAdhocretrieval自由式查询Collection“FixedSize”Q2Q3Q1Q4Q511Retrieval:AdHocandFilteringFiltering过滤式查询(比如股票信息)DocumentsStreamUs
5、er1ProfileUser2ProfileDocsFilteredforUser2DocsforUser112IR模型Non-OverlappingListsProximalNodesStructuredModelsRetrieval:AdhocFilteringBrowsingUserTaskClassicModelsbooleanvectorprobabilisticSetTheoreticFuzzyExtendedBooleanProbabilisticInferenceNetworkBeliefNetworkAlgebraicGeneralizedVectorLatentSeman
6、ticIndexNeuralNetworkBrowsingFlatStructureGuidedHypertext13IR模型、文档逻辑视图、用户任务之间的关联IndexTermsFullTextFullText+StructureRetrievalClassicsettheoreticClassicalgebraicClassicprobabilisticClassicsettheoreticClassicalgebraicClassicprobabilisticStructuredBrowsingFlatFlatHypertextStructureGuidedHypertextLOGIC
7、ALVIEWOFDOCUMENTSUSERTASK14IR系统的形式化描述(MIRp.23)IR模型是一个四元组D是文档集中文档的逻辑表示形式Q是用户需求的逻辑表示形式,亦可理解为查询F是一种机制,用于构建文档表示、查询以及它们之间关系的模型R(qi,dj)是排名函数,该函数输出一个与查询qi∈Q和文档表示dj∈D有关的实数,从而在文档之间根据查询qi定义一个顺序15框架F的含
此文档下载收益归作者所有