欢迎来到天天文库
浏览记录
ID:5313204
大小:5.47 MB
页数:49页
时间:2017-12-07
《web信息处理与应用:queries》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、QueriesWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13Advan
2、cedTopics*Web信息处理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题Web如何有效地表达和回答用户查询?Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)Web查询处理的过程如何有效地表达和回答用户查询?Index-basedsearchuserqueryranking结W112W2果优W3134集化…8改进Wn24Web信息处理与
3、应用4金培权(jpq@ustc.edu.cn)本章主要内容查询表达相关性反馈查询扩展Web信息处理与应用5金培权(jpq@ustc.edu.cn)一、查询表达InformationRetrievalGivenaqueryandacorpus,findrelevantdocuments.query:user’sexpressionoftheinformationneedcorpus:therepositoryofretrievableitemsrelevance:satisfactionoftheinform
4、ationneed查询表达排序(nextchp.)Web信息处理与应用6金培权(jpq@ustc.edu.cn)一、查询表达问题:如何准确、正确地表达用户查询?Aquerycanrepresentverydifferentinformationneedstable:furniture,datastructure,…office:aworkplace,softwareAquerycanbeapoorrepresentationoftheinformationneedQuerytermswillnotalwaysap
5、pearintheindex,e.g.,planevs.aircraftSome(new)queriesaredifficulttoexpress.Web信息处理与应用7金培权(jpq@ustc.edu.cn)一、查询表达局部(Local)优化方法:对用户查询进行局部的分析相关性反馈relevancefeedback全局(Global)优化方法:进行一次性的全局分析(比如分析整个文档集)来产生同/近义词词典(thesaurus)查询扩展queryexpansionWeb信息处理与应用8金培权(jpq@ustc.
6、edu.cn)二、相关性反馈用户在查询后标记相关/不相关文档,然后(迭代)更新查询以获得更好的结果MotivationYoumaynotknowwhatyou’relookingfor,butyou’llknowwhenyouseeit“findmemoredocumentslikethis…”Queryformulationmaybedifficult;simplifytheproblemthroughiterationWeb信息处理与应用9金培权(jpq@ustc.edu.cn)InitialQueryWe
7、b信息处理与应用10金培权(jpq@ustc.edu.cn)RevisedQueryWeb信息处理与应用11金培权(jpq@ustc.edu.cn)二、相关性反馈Userissuesa(short,simple)queryTheusermarksreturneddocumentsasrelevantornon-relevant.Thesystemcomputesabetterrepresentationoftheinformationneedbasedonfeedback.Relevancefeedback
8、cangothroughoneormoreiterations.Idea:itmaybedifficulttoformulateagoodquerywhenyoudon’tknowthecollectionwell,soiterate通常用术语“adhocretrieval”来表示那种无相关反馈的常规检索Web信息处理与应用12金培权(jpq@ustc.ed
此文档下载收益归作者所有