搜索引擎 预处理

搜索引擎 预处理

ID:39390834

大小:15.50 KB

页数:3页

时间:2019-07-02

搜索引擎 预处理_第1页
搜索引擎 预处理_第2页
搜索引擎 预处理_第3页
资源描述:

《搜索引擎 预处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎预处理得到海量的原始网页集合,间隔面向网络用户的检索服务之间还有相当的间隔。宏观地看,服务子系统是一个程序。采用Wirth关于"程序=算法+数据结构"的观点来考察这个程序,一个合适的数据结构是查询子系统工作的核心和关键。这里只是指出:现行最有效的数据结构是"倒排文件"(invertedfile);倒排文件是用文档中所含关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标)。我们在第八章中有进一步分析。下面讨论从网页集合形成这样的倒排文件过程中的几个主要题目,即

2、我们所说的"预处理"。主要包括四个方面,关键词的提取,"镜像网页"(网页的内容完全相同,未加任何修改)或"转载网页"(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为"近似镜像网页")的消除,链接分析和网页重要程度的计算。1、关键词的提取随便取一篇网页的源文件(例如通过浏览器的"查看源文件"功能),我们可以看到其中的情况纷乱繁杂。除了我们从浏览器中能够正常看到的文字内容外,还有大量的HTML标记。根据天网统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。

3、另外,由于HTML文档产生来源的多样性,很多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含很多和主要内容无关的信息(例如广告,导航条,版权说明等)。这些情况既给有效的信息查询带来了挑战,也带来了一些新的机遇,在后面的章节将会有进一步的论述。这里我们只是指出,为了支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征。从人们现在的熟悉和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。对于中文来说,就是

4、要根据一个词典Σ,用一个所谓"切词软件",从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p={t1,t2,…,tn}。一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率(efficiency)考虑,着陆页面不应该让所有的词都出现在网页的表示中,要往掉诸如"的","在"等没有内容指示意义的词,称为"停用词"(stopword)。这样,对一篇网页来说,有效的词语数目大约在200个左右。2、重复或转载网页的消除与生俱来的数字化和

5、网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象。天网在2003年的一次大规模统计分析表明,网页的重复率均匀大约为4。也就是说,当你通过一个URL在网上看到一篇网页的时候,均匀还有另外3个不同的URL也给出相同或者基本相似的内容。这种现象对于广大的网民来说是有正面意义的,由于有了更多的信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且假如在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,"这么

6、多重复的,给我一个就够了"。因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。第七章对此有具体的分析论述。3、链接分析前面提到,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,假如系统面对的仅仅是内容的文字,我们能依据的就是"共有词汇假设"(sharedbagofwords),百度降权即内容所包含的关键词集合,最多加上词频(termfrequency或tf、TF)和词在文档集合中出现的文档频率(documentfrequency或df、DF)之类的统

7、计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。有了HTML标记后,情况还可能进一步改善,例如在同一篇文档中,H1和/H1之间的信息很可能就比在H4和/H4之间的信息更重要。特别地,HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,以为它们不仅给出了网页之间的关系,而且还对判定网页的内容有很重要的作用。例如"北大学报"这几个字在北京大学学报社会科学版的主页上是没有的,因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作

8、为结果。但是北京大学主页上是用"北大学报(社)"作为链接信息指向了北京大学学报社会科学版的主页。因此在很好利用链接信息的搜索引擎中应该能返回北京大学学报社会科学版的主页。4、网页重要程度的计算搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个题目。由于面对各种各样的用户,加之查询的自然语言风格,对同样的q0返回相同的列表肯定是不能使所有提交q0的用户都满足的(或者都

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。