搜索引擎中的信息检索和链接分析技术ppt培训课件

搜索引擎中的信息检索和链接分析技术ppt培训课件

ID:33855356

大小:841.50 KB

页数:46页

时间:2019-03-01

搜索引擎中的信息检索和链接分析技术ppt培训课件_第1页
搜索引擎中的信息检索和链接分析技术ppt培训课件_第2页
搜索引擎中的信息检索和链接分析技术ppt培训课件_第3页
搜索引擎中的信息检索和链接分析技术ppt培训课件_第4页
搜索引擎中的信息检索和链接分析技术ppt培训课件_第5页
资源描述:

《搜索引擎中的信息检索和链接分析技术ppt培训课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、搜索引擎中的信息检索和链接分析技术华中科技大学研究员朱会灿Overview简介排序网页作弊(Spamming)信息检索(IR)在Google的成功应用远景展望2Introduction:HistoryWWW出现(1992)Mosaic/Netscape出现(1993-95)网络爬虫(Crawler)出现(1994):M.Mauldin(foundedLycos)Yahoo成立:1994,网页目录搜索引擎出现1994-1996(InfoSeek,Lycos,Altavista,Excite,Inktomi,…)Google创立:1996-98试图把

2、搜索技术卖出去。没找到买主。都忙着办门户网站(portals)3ThePipelineCrawling:循着链接下载网页Indexing:纪录哪个词在哪儿出现Ranking:从几十亿网页中找出跟用户查询最匹配的Serving:处理查询,生成结果网页4Ranking:History早期搜索引擎都是基于信息检索技术(IR)领域出现于1950年代主要着眼于文本检索主要使用统计方法来分析文本运用heuristics基于词的位置分配权重(靠开始或者在题目里比较好)多词查询时,这些词在文章中越近越好普通词不重要(e.g.the,的)5InformationR

3、etrieval(IR)TFxIDF:TF(Termfrequency):一个词在一篇文章中出现的次数IDF(Inversedocumentfrequency):总文章数/(含有这个词的文章数)乘积越高,则相应的文章对该词匹配越精确:这个词在这篇文章中出现的次数多,而且包含这个字的文章少。聚类(clustering):把相关的信息合到一起分类(classification):根椐某个标准,把内容归类。信息提取(extraction):从文本中提取关键词6Ranking:DrawbacksofIR对网页搜索:IR必要但不充分不能表达内容权威性(au

4、thority)在sina.com上的一片文章和在某个blog上重贴的版本得分一样不能表示webnavigation搜索ibm是在找www.ibm.comwww.ibm.com可能看起来没有一篇IBM季度报告重要7Ranking:LinkAnalysis但是好在有链接…网上导航的工具表示目标网页重要对目标网页的推荐还描述目标网页(Anchortext)8Ranking:LinkAnalysis链接分析:利用链接信息来判断网页重要性HubsandAuthorities(JonKleinberg)PageRank(BrinandPage)9Hubsa

5、ndAuthorities权威(Authority)网页:最经常被指向的网页:w3c.com,google.com中心(Hub)网页:有很多外向链接的网页。链接多有相关主题:news.sohu.com只有指向最好的中心网页才是最好的权威网页。只有指向最好的权威网页才是最好的中心网页。HITS(Hyperlink-InducedTopicSearch):BaseResultsBaseResultsBaseResults10HITS:ProsandConsPros:自动主体分组:如果一个检索词有多个意义,多组权威和中心网页自动识别:Apple对立的观

6、点自动分开:房地产价格趋势.Cons:在线计算:长处理时间,只对小的索引有效.对极其明确范围的检索不太好:[adobereader7.0.8]11PagerankPageRank:利用Web所拥有的庞大链接构造的特性来对网页重要性的排序。网页A指向网页B的链接被看作是A对B的支持投票投票数目影响页面的重要性。Pagerank不单单只看投票数(即链接数)“重要性”高的页面所投的票的评价会更高Pagerank基于整个链接图离线计算,跟搜索词无关。计算非常高效12PagerankBACPr(B)=Pr(A)/4+Pr(C)/3M:链接矩阵:m(i,j)

7、=0如果i不指向j;=1/i_out,i_out是节点i的总链接数P:pagerank向量,我们有:MP=cP13Pagerank假设一个网上冲浪者随机点击看到的网页链接,他到达某个网页的概率就是这个网页的PageRank值。如果一个网页没有外向链接怎么办?-依照小概率,比如说,15%,一个用户会停止点击链接,而将URL敲进地址框(或从个人爱好表里选取)个性化pageranks,具有明确主题的pageranks14AnchorText描述目标网页的短句:XXX的个人主页,Googlesearchengine有些信息无用:Clickhere有些是恶

8、意中伤15PutEverythingTogether信息检索链接分析AnchorText上下文相关摘要秘密配料16Overview简介排

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。