web信息处理与应用:indexing

web信息处理与应用:indexing

ID:5314637

大小:1.48 MB

页数:43页

时间:2017-12-08

web信息处理与应用:indexing_第1页
web信息处理与应用:indexing_第2页
web信息处理与应用:indexing_第3页
web信息处理与应用:indexing_第4页
web信息处理与应用:indexing_第5页
资源描述:

《web信息处理与应用:indexing》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、IndexingWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13AdvancedTopics*Web信息处

2、理与应用2金培权(jpq@ustc.edu.cn)本章讨论的问题Web预处理后的词项如何组织和存储?Crawler/UsinganindextomaintainSpidertermseffectivelyandefficientlyTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用3金培权(jpq@ustc.edu.cn)TheGoalofIndexingIndexKeyword-basedFastmatchingqueriesW112withdocuments

3、W2W3134…8Wn24Web信息处理与应用4金培权(jpq@ustc.edu.cn)TheGoalofIndexingIndexterms/SearchkeysinDBW1W1IndexW2W3W112W2W3134……8Wn24WnDictionary/VocabularyPostingsListWeb信息处理与应用5金培权(jpq@ustc.edu.cn)本章主要内容文档分析倒排索引Web信息处理与应用6金培权(jpq@ustc.edu.cn)一、文档分析Web信息处理与应用7金培权(jpq@ustc.edu.cn)1、索引词项的选择

4、索引词项的选择范围人工索引->质量高,但不适用大规模文档数据处理自动索引部分索引->title,abstract,keywords,etc全文索引->文档中所有词都参与索引(SE/IR普遍采用)索引词项的选择原则Indexterm≠word理想:表达文档内容的语义单位依赖文本处理技术:stemming、stopwords……Web信息处理与应用8金培权(jpq@ustc.edu.cn)2、用户检索方式最简单的检索方式:布尔检索指利用AND,OR或者NOT操作符将词项连接起来的查询信息AND检索信息OR检索信息AND检索ANDNOT教材在30多年

5、中是最主要的检索工具当前许多搜索系统仍然使用布尔检索模型电子邮件、文献编目、MacOSXSpotlight工具Web信息处理与应用9金培权(jpq@ustc.edu.cn)2、用户检索方式最简单的检索方式:布尔检索Web信息处理与应用10金培权(jpq@ustc.edu.cn)3、检索例子莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?布尔表达式为BrutusANDCaesarANDNOTCalpurnia。笨方法:从头到尾扫描所有剧本,对每部剧本判断它是否包含BrutusANDCaesar,同时又不包含Calp

6、urnia速度超慢(特别是大型文档集)处理NOTCalpurnia并不容易(一旦包含即可停止判断)不太容易支持其他操作(e.g.,findthewordRomansnearcountrymen)不支持检索结果的排序(即只返回较好的结果)Web信息处理与应用11金培权(jpq@ustc.edu.cn)4、另一种选择Term-Document关联矩阵(IncidenceMatrix)DocsTermsAntonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbethAntony110001Brut

7、us110100Caesar110111Calpurnia010000Cleopatra100000mercy101111worser1011101ifplaycontainsword,0otherwiseQ:BrutusANDCaesarbutNOTCalpurniaWeb信息处理与应用12金培权(jpq@ustc.edu.cn)IncidenceMatrix关联矩阵的每一列都是0/1向量,每个0/1都对应一个词项给定查询BrutusANDCaesarANDNOTCalpurnia取出三个行向量,并对Calpurnia的行向量求补,最后按位进

8、行与操作110100AND110111AND101111=100100Web信息处理与应用13金培权(jpq@ustc.e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。