搜索引擎 预处理 分析介绍

搜索引擎 预处理 分析介绍

ID:39390862

大小:83.00 KB

页数:3页

时间:2019-07-02

搜索引擎 预处理 分析介绍_第1页
搜索引擎 预处理 分析介绍_第2页
搜索引擎 预处理 分析介绍_第3页
资源描述:

《搜索引擎 预处理 分析介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎预处理分析介绍搜索引擎预处理分析介绍2011-03-2822:25搜索引擎经过蜘蛛对互联网中的网页停止索引下载,然后在预先处置对网页内容停止剖析挑选,最后在经过索引查询算法才干展现在我们眼前,我们不难发现预处置在其中站着十分重要的一局部,它包括关键词提起、去重、链接剖析、重要度计算4局部,下面我们就对这4局部停止一个引见。1.关键词提取我们随意取一篇网页的源代码停止查看,我们能够发现代码纷乱冗杂。除了我们平常经过阅读器可以正常看到的文字内容外,还有大量的HTML标志。据统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。另外,由于HTML文档产生来源的

2、多样性,许多网页在内容上比拟随意,不只文字不考究标准、完好,而且还可能包含许多和主要内容无关的信息。而为了支持后面的查询效劳,这时我们就需求从网页源文件中提取出可以代表它的内容的一些特征。而从网名的认识和理论来看,所含的关键词即为这种特征最好的代表。于是,作为预处置阶段的一个根本任务,就是要提取出网页源文件的内容局部所含的关键词。关于中文搜索引擎来说,就是要依据一个词典Σ,用一个所谓"切词软件",从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p={t1,t2,…,tn}。普通来讲,我们可能得到很多词,同一个词可能在一篇网页中屡次呈现。从效果(

3、effectiveness)和效率(efficiency)思索,不应该让一切的词都呈现在网页的表示中,要去掉诸如"的","在"等没有内容指表示义的词,称为"停用词"(stopword)。这样,对一篇网页来说,有效的词语数量大约在200个左右。注:百度之所以强大,就是由于百度具有十分强大的词典Σ。2.消重与生俱来的数字化和网络化给网页的复制以及转载和修正再发表带来了便利,因而我们经常看到Web上的信息存在着大量的反复内容。据统计剖析标明,网页的反复率均匀大约为4。也就是说,当你经过一个URL在网上看到一篇网页的时分,均匀还有另外3个不同的URL也给出相同或者根本类似的内容。这

4、种现象关于广阔的网民来说是有正面意义的,由于有了更多的信息访问时机。但关于搜索引擎来说,则主要是负面的;它不只在搜集网页时要耗费机器时间和网络带宽资源,而且假如在查询结果中呈现,无意义地耗费了计算机显现屏资源,也会引来用户的埋怨,关于搜索引擎来说"这么多反复的,给我一个就够了"。因而,消弭内容反复或主题内容反复的网页是预处置阶段的一个重要任务。注:搜索引擎剖析内容能否反复的办法即为我们关键词提取中得到的关键词集p,然后剖析p下关键词呈现的频率与位置。3.链接剖析前面提到,大量的HTML标志既给网页的预处置形成了一些费事,也带来了一些新的机遇。从信息检索的角度讲,假如系统面对

5、的仅仅是内容的文字,我们能根据的就是"共有词汇假定"(sharedbagofwords),即内容所包含的关键词汇合,最多加上词频(termfrequency或tf、TF)和词在文档汇合中呈现的文档频率(documentfrequency或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定水平上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。有了HTML标志后,状况还可能进一步改善,例如在同一篇文档中,之间的信息很可能就比在之间的信息更重要。而HTML文档中所含的指向其他文档的链接信息又是十分重要的,搜索引擎以为它们不只给出了网页之间的关系,而

6、且还对判别网页的内容重要度有很重要的作用。4.网页重要水平的计算搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的次第是很重要的一个问题。由于面对各种各样的用户,加之查询的自然言语作风,对同样的q0返回相同的列表肯定是不能使一切提交q0的用户都称心的(或者都到达最高的称心度)。因而搜索引擎实践上追求的是一种统计意义上的称心。做我们这行的都以为google比百度好,是由于在多数状况下前者返回的内容要更契合用户的需求,而不是一切状况下都如此。那么如何来判别一篇网页比另外一篇网页重要?参照科技文献重要性的评价方式,中心想法就是"被援用多的就是重要的"。"援用"这个

7、概念恰恰能够经过HTML超链在网页之间表现得十分好,作为Google创建中心技术的PageRank就是这种思绪的胜利表现。除此以外,人们还留意到网页和文献的不同特性,即一些网页主要是大量对外的链接,其自身根本没有一个明白的主题内容,而另外有些网页则被大量的其他网页链接。从某种意义上讲,这构成了一种对偶的关系,这种关系使得人们能够在网页上树立另外一系列种重要性指标。这些指标有的能够在预处置阶段计算,有的则要在查询阶段计算,但都是作为在查询效劳阶段最终构成结果排序的局部参数。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。