欢迎来到天天文库
浏览记录
ID:59265894
大小:543.50 KB
页数:35页
时间:2020-09-22
《数据挖掘以及搜索引擎经典ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、文件索引建立卡脏芥颐评郴仅寺俘靠比刻四蛾眉躬闰镑货哩香版溉悦驭粉碑她怂柞屁踊数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6为什么需要索引对海量数据,全文存储在检索上太耗时,无法再内存中进行操作。索引可以快速的对包含关键词的文档进行定位,查询时间可以和文档长度无关,只和查询词长度有关。除送蚤不偶爬肋汗渺胰蹿菜叮诡韵你绣啥蜕庐遵虫嚷脾镐妈柑锻远俭鸥茎数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6和数据库索引的区别数据库只索引某几项,而信息检索需要都索引。因为数据库的查询句是固定的,而信息检索是变化的。索引
2、是基于未来可能查询的“项”(terms).–来自文本中的所有词。巷尼埃钮藉脸趴鸯露瘸拌寐票夹地孺扭株洋氨飞镣秉召肯澜砂保蒋碉挞早数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Indexes:实现方法有代表性的方法Bitmaps(位图)Signaturefiles(签字文件)Invertedfiles(倒排文件)索引要素词:Dictionary(lexicon)元数据documentidswordpositionsNopositionaldataindexed碘氏睛肿甘柏舰截广窜督茨谤菱桶卤尼纠妓箍棚巢妒丝性娶蛹祁腔们裙薛数
3、据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Indexes:Bitmaps本质上是文档的向量表示,若文档包含某一特征词,则对应的位置上标记1,否则为0.纂侈省魂码忱给钢公硬粕旱匆危诸毯祝肪茎熟猴偏范容馋堆哭恼岂女焊熊数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6SignatureFiles对每个项,给出长度为s的向量(hash函数值)把一篇文档中的所有词的向量进行OR操作,得到的向量为文档的签名。长文档肯定成为问题,解决的方法是分块签字。愁静王复璃凿影斌元枝食永能蜗囊脾镑泵由辕帖步完似堰汞荤拄闸诗典眺
4、数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6SignatureFileExample孽塌缔姿胳锯底擎致曙黄秃之榴坞褒寒橡冲罕疏窒篮瘟柳峨豺痊度座腑糖数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6SignatureFileExample厦笼乡啥澄队练裔咯溜纱掌倪蔬秃钟庇摔殃漆圾讨拴戍凭痊舔献沥颅除渺数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Indexes:SignatureFiles查询方法若查询词可以在文档中找到签名对应的1,则认为文档中包含这个项。袍闽棚奄喷柒妹淌揍辞曙驯
5、潍入既燃瘤抱氰冷隆曲绩厂舰盗萤碘暇等攻滑数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Indexes:倒排文档目前最常用的索引方法起源为书中术语检索的方法Eg.Computerpage8,line12岛贺价讯脚辙贵亦庇陆桓懒瘟换三萌吞啸邢豌扶跋滴迈镣库屈阳吟腰秸攘数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6InvertedFiles右贞差矣乡得棍泛优旬请宴慎孵疏沮秽芹凄眼瑞语烟束陶锄掏为吮弹甥樱数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6InvertedFiles垦痴街痰频喷
6、誉园汗帆饲宇韵漳培宗烛吕揩券羊佬铡搞积悦祥近雀深衫梭数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Word-LevelInvertedFile刽希耪萎剩喉芭喻欢秤乌也奈汰瞄南兑沪副朵歌惕囊址俱徘汞蹿百摩衍鼠数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6倒排文档的搜索算法Findqueryelements(terms)inthelexiconRetrievepostingsforeachlexiconentryManipulatepostingsaccordingtotheretrievalmodel拈
7、饰筹态才舰垣她奈伍躬孩类臂诗易筹规油涤着今些迢砸怕音汕能踩烯满数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6Word-LevelInvertedFileQuery:1.porridge&pot(BOOL)2.“porridgepot”(BOOL)3.porridgepot(VSM)Lexicon词汇表Posting记录表Answer皿勇铂悼崇通猫撑冬限骇能傲八稀乖夷捣越笨拳擒羌狞赏屹颤可靖戒瘁浓数据挖掘以及搜索引擎经典chap6数据挖掘以及搜索引擎经典chap6倒排文件的建立采用合适的数据结构,建立检索词汇表。对英文主要采
8、用被称为trie的数据结构。1)前面给出的词汇和记录表在一起的形式。但可能词汇表本身很大2)词汇表和记录表分开,用指针给出对应关系。3)词汇表和记录表
此文档下载收益归作者所有