欢迎来到天天文库
浏览记录
ID:23221011
大小:98.56 KB
页数:6页
时间:2018-11-05
《走进搜索引擎读书笔记》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、走进搜索引擎读书笔记2012-5-20一、基本概念1、网页级、对象级和垂直搜索网页级和对象级是针对搜索粒度而言,对象级特指那些针对对象属性进行的搜索;而网页级搜索并没有将具体的网页内容对象化。垂搜在于其限定了某个领域、行业或者话题等,搜索的人群都是固定局限的。2、死链在实际使用搜索引擎时会出现有搜索结果链接“打不开”的情况3、检索查找的三类信息:——导航类查询:查找一个用户已知的网页(帮助其找到对应的URL),如“清华大学”。按照查找目标页面的不同细分为特殊需求页面定位任务和主页定位任务两类,主页定位任务的目标页面是站点/子站点的主页;而特殊需求页面定位任务的目标
2、页面是主页以外的页面。——信息类查询:查找关于某个查询主题的相关信息,如“菲律宾示威游行”——事务类查询:查找关于某个内容的网络服务,如购物服务、查询服务及下载服务等,如“mp3下载”4、信息熵即消息X的熵,信息集X发出任意一个随机事件的平均信息量,即用多少个二进制表示一个消息。5、检索和查询对于查询来说,适用于真实用户进行的一次查询是相对于搜索引擎查询系统而言的;查询的结果是搜索结果网页。对于检索来说,适用于检索代理对索引库进行的一次检索是相对于搜索引擎索引系统而言的,检索的结果是与查询词相关的文档列表。6、检索词和查询词严格意义上,普通用户提交给查询系统的关键
3、词称“查询词”经过查询系统分词,提交检索代理的称“检索词”7、自动文本摘要是从文档中自动提取出的一个正文片段。用户仅仅需要浏览整个正文片段就能够了解文档中与查询词相关的部分,进而判断是否值得详细阅读整篇文档。有4个特征——摘要的指示性(必须能够指出查询词在文档中的位置)、摘要的描述性(尽量能包含所有的查询词,如果不能全部包含,也要尽可能包含权重更高的查询词)、摘要的简洁性(长度控制在一定的范围内)、摘要完整性(摘要的句子必须完整)8、检索模型布尔模型——表达简单易于实现且检索速度快,但缺乏灵活性、没有考虑到关键词在查询中的权重问题向量空间模型——将查询词和文档向量
4、求相似度关键词权重的量化经典方法TF/IDF——不是仅仅通过词频,而是用熵9、PageRank与搜索结果的排序不同PageRank得到所有文档里重要性最高的文档集合,而搜索结果的排序是从这些重要性高的文档中按与查询词匹配程度由高到低排序。1、文档和文档编号文档——结构化的网页对象(包括标题、正文和URL等信息的结构体)文档编号——网页的编号2、网页重要性评价的三个指标:——认可度越高的网页越重要,即反向链接越多的网页越重要;——反向链接的源网页质量越高,被这些高质量网页的链接指向的网页越重要;——链接数越少的网页越重要3、万维网的蝴蝶结型结构SCC56Millio
5、nnodesIN-------》44MillionnodesOUT-------》44Millionnodes^
6、
7、其中SCC,stronglyConnectedComponent,这种类型的网页彼此相连,任意去掉有限个网页,不会影响其连通度。不管是从正向或反向遍历从统计的角度上看都可以遍历占全部网页的3/4的网页数蝴蝶结的左部(IN),这种类型的网页指向中心部分,称为目录型网页,通常说的导航网页,如果采用正向遍历的方法可以遍历占全部网页3/4的网页数;采用反向遍历的方法只能遍历很有限的一些网页。蝴蝶结的右部(OUT),这种类型的网页被中心部分指向,称为权威性网页
8、,这些网页被引用次数多,表示为大多数网页对其“认可度”高。蝴蝶结的须脚(Tendrils),这种类型的网页表现为从左部链出到其他网页,或者其他网页链入右部或从左部直接链入右部,以及少部分与中部、左部或右部都没有链接的4、万维网的直径,如果用d表示存在一条网页u到网页v的路径,那么这些万维网上所有不同的连通网页对所构成的最短路径的平均长度,统计得到大约17左右。1、爬虫,一组运行在计算机中的程序,在搜索引擎系统中负责抓取时新的且公共可访问的web网页、图片和文档等资源。2、搜索引擎的主要特点:查的快、查的全、查得准、查得稳3、搜索引擎公认的有3种服务方式:目录式搜索
9、引擎【yahoo、sohu】、全文搜索引擎、元搜索引擎【将用户的查询请求同时向多个搜索引擎递交,然后将返回的结果进行重复排除及重新排序等处理后作为自己的结果返回给用户,如webcrawler】一、基本结构及原理四大部分,——查询系统分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。——索引系统将分析系统处理后的网页对象索引入库。1、URL唯一标识一个文档,但是不方便计算和存储,因此需要将用MD5签名得到一个整型数据,再对这个数进行压缩,如游程编码/差分/变长编码。2、正排索引(前向索引):以文档编号为主键倒排索引:以关
10、键词作为主
此文档下载收益归作者所有