《布尔检索模型》PPT课件

《布尔检索模型》PPT课件

ID:41179522

大小:1.32 MB

页数:17页

时间:2019-08-18

《布尔检索模型》PPT课件_第1页
《布尔检索模型》PPT课件_第2页
《布尔检索模型》PPT课件_第3页
《布尔检索模型》PPT课件_第4页
《布尔检索模型》PPT课件_第5页
资源描述:

《《布尔检索模型》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、布尔检索模型XXXX布尔检索模型概述布尔检索法是指利用布尔运算符连接各个检索词,然后由计算机进行逻辑运算,找出所需信息的一种检索方法。设文本集D中某一文本i,则该文本可表示为:其中为标引词用来反映文本i的内容设另一用户检索表达式为对于该检索式,系统响应并输出的一组文本应为:它们都含有标引词和或者含有标引词和。布尔运算符AND(或*):逻辑与表示所连接两个检索词的交集部分。例如检索同时含有关键词A和B的集合C:AANDBOR(或+):逻辑或表示查找含有检索词A和B之一,或同时包含检索词A和B的信息:AORBNOT(或-):

2、逻辑非表示含有检索词A并且不含有检索词B的信息:ANOTB布尔运算符运算符之间的优先级:NOT>AND>OR,如检索表达式:雪花NOT啤酒AND歌曲OR小说,搜索结果为:名字叫《雪花》的歌曲或者小说。利用小括号()可以设置出个性化的检索方程。例如检索出不包含日本在内的有关教育或法律方面的信息:(universityORcollege)AND(educationORLaw)NOTJapan布尔模型在网页查重中的应用网页中的重复现象微软曾作过一个试验,从网络中下载了150000000个网页,发现这些网页中有29.2%是相似网

3、页,而且这些相似网页中还有22.2%是完全重复的(一字不差);另外相似网页十分稳定地存在,一对相似的网页在1O个星期以后极有可能还是相似的网页。网页重复的弊端重复的网页降低了网页采集器的工作效率,浪费了数据挖掘工具的资源,使用户的工作效率下降,如何能够尽可能准确地去除这些重复的网页就是我们所面临的问题。布尔模型在网页查重中的应用※关于重复的定义一直以来,对于重复的定义都非常模糊,没有一个清晰的定义。一字不差可以理解为重复,字面上意义相近也可以理解为重复。对于重复各人都有自己的定义。※Conrad对于重复的定义是:如果两篇

4、文章之间有超过80%的用词相同,而且长度相差不超过正负20%,则这两篇文章就是重复的。※Pugh(workforGoogle)对于重复的定义就要简单得多:如果两篇文章之间有超过r个特征相同,则它们就是相似的。布尔模型在网页查重中的应用在利用布尔模型的查重算法中,对于重复的定义就是使用Pugh对重复的定义。该算法是利用布尔模型进行查重,将每篇文章表示为一个二进制数,若是符合比较条件的两篇文章,则将两个二进制数异或,结果中为1的特征则是两篇文章不同的特征,计算出两篇文章中的不同特征个数后,再判断是否需要它们比较。当语料集合较

5、大时,文档之间两两比较的次数就相当巨大,这是所有网页查重算法的瓶颈。在使用布尔模型的网页查重算法中,两篇文档之间是否需要比较取决于它们的相同特征个数而不是文档长度,当特征的总个数差别在阈值d之内的时候,就异或其二进制码;否则不需要比较,直接判定它们不同。在得到二进制码异或的结果(0或1)之后,在读取文档的过程中建立一个索引。(表1)网页重复的判定过程:布尔模型在网页查重中的应用▲其中id代表特征的唯一表示,Doic表示出现了该特征的文档的唯一标识符。当两篇文档相互比较而相异结果为1时,就将它们分别插入它们之间不同的特征链

6、表中;否则,插入相同特征链表中。▲当再有新的文档需要比较时,根据该文档中出现的特征,选择应该与它相同的集合,以减少比较次数。布尔模型在网页查重中的应用id1Doic1Doic2Doic4Doic6…id2Doic2Doic5Doic7Doic9…id3Doic1Doic4Doic5Doic6…id4Doic5Doic6Doic7Doic8…………………表一索引数据结构使用这种算法的优点:由于一些词在所有文档中都大量出现,这些词将不会作为文档的特征值,可以忽略大量常用停用词的影响,如in,and,the等,这样读取文档时就

7、不需要特别过滤常用词,节约了处理文档和提取特征的时间。特征值的比较结果只有1和0两种状态,节约资源,易于实现。布尔模型在网页查重中的应用当两篇文档需要比较时,最好的情况就是所有的特征均不同,结果为0,此时的相异度就为1。当有k(比如设k为0.2)以上特征不同时,则判定两篇文档为非相似文档;如有0.2以下的特征不同,则需要计算这些不同特征总的频度(Tf)。表2为文档D1和D2相异度的计算实例。相异度的计算:布尔模型在网页查重中的应用♣T表示文档中出现的特征,D表示特征t是否在文档Doic中出现过(0表示没有出现,1表示出现

8、了,这就是布尔模型),Tf表示特征t在文档中的出现频率,Result表示两篇文档之间D的异或结果:Result=D1D2。D1D2Tf1Tf2resultT101021T211130T310201T411570T511620表二D1和D2相异度的计算对于两篇文档i和j,假设它们符合比较的条件,则它们的相异度计算公式为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。