欢迎来到天天文库
浏览记录
ID:48198304
大小:731.50 KB
页数:21页
时间:2020-01-15
《元搜索引擎与搜索引擎检索结果分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、搜索引擎检索结果分析主要内容搜索引擎的原理元搜索引擎介绍检索结果分析搜索引擎的原理主要功能索引处理:建立可查找的数据结构查询处理:利用数据结构和用户的查询生成排序文档搜索引擎的原理索引处理功能文本采集文本转换索引建立文档数据库索引淘宝robots.txtheritrix搜索引擎的原理查询处理功能搜索引擎的原理评价排序用户交互日志数据文档数据库索引又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的查询问题同时提交给多个独立的搜索引擎,同时检索多个数据库;并根据多个独立搜索引擎的检索结果进行
2、二次加工,如对检索结果去重、排序等,然后输出给用户。元搜索引擎原理元搜索引擎由三部分组成请求提交机制:负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等接口代理机制:负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式结果显示组件:负责所有元搜索引擎检索结果的去重、合并、输出处理等元搜索引擎原理搜索引擎拥有独立的网络资源采集标准机制和相应的数据库。元搜索引擎一般来说没有自己独立的数据库,更多的是提供检索方式和结果整理,形成多个分布的、具有独立功能的搜索引擎构成的虚
3、拟逻辑整体。元搜索引擎的出现,对于避免连续地使用不同的搜索引擎重复相同的检索,是一个很好的选择元搜索引擎与搜索引擎的区别搜索引擎:google,Yahoo!,askjeeves,MSN元搜索引擎:Dogpile研究比较这些搜索引擎在首页给出的结果,与通过元搜索引擎Dogpile检索给出的结果检索结果分析对于大量的查询,不同搜索引擎在第一页给出结果的覆盖度分析各个搜索引擎在第一页搜索结果中排名的区别比较Dogpile和四大搜索引擎检索结果对比研究目标如何获得大量的随机性和代表性查询问题?随机地从Infospace搜索
4、站点的服务器访问日志文件中获得随机查询,为了保证用户的多样化,分别从工作日和休息日的日志中选择关键字;然后删除了重复的查询问题以及搜索引擎没有处理的查询问题。检索结果分析搜索结果数据如何收集?预处理日志文件中的随机用户查询问题设计.NET应用程序,自动检索各个搜索引擎,然后抓取各搜索引擎第一页结果对于获得的查询问题列表,四个搜索引擎的检索时间段是相同的从第一结果页中抓取结果,存储的数据包括:URL;检索结果的位置和类型检索结果分析如何计算覆盖率?当所有的查询问题相关数据收集完后,就运行基于URL的覆盖率算法,对在一
5、个搜索引擎上检索的URL匹配另外一个或者更多搜索引擎上的URL,就把这个URL作为查询结果记录下来然后记录每一个查询问题在所有搜索引擎的第一结果页的量,最后把所有查询问题的量统计,计算覆盖率检索结果分析目标:不同搜索引擎在第一页给出结果的覆盖率搜索引擎对12570个查询问题在第一页给出的平均检索结果数量。前四种搜索引擎给出的结果百分比都比较接近,付费检索结果比例在18~27%之间,非付费检索结果在73~82%之间。这些数据显示了各搜索引擎在检索付费结果和非付费结果时具有相似性。元搜索引擎的检索结果明显比其他搜索引擎
6、检索结果更多检索结果分析在12570个查询问题的检索结果中,第一页给出了485460个结果。四种搜索引擎给出的结果综合占总的84.9%,两个搜索检索结果交集平均率为11.4%,三种搜索引擎平均交集率为2.6%,只有1.1%的结果是四种搜索引擎包含的。检索结果分析目标:分析各个搜索引擎在第一页搜索结果中排名的区别下表显示出,单个搜索引擎检索结果中,非付费结果占总检索结果的百分比,例如google为71.8%,第二列显示了google和其他任意一个搜索引擎非付费结果平均交叉覆盖结果的比例为28.2%。这可以看出不同搜索
7、引擎对于web查询是有不同观点的,而我们使用单一搜索引擎检索结果是存在很大的局限性的。检索结果分析目标:比较Dogpile和四大搜索引擎检索结果对比描述了元搜索引擎dogpile.com在第一个检索结果页给出的结果和四种搜索引擎检索结果的覆盖率。其中第一行,可以看出,Dogpile元搜索引擎检索的结果和四种搜索引擎检索结果都匹配的平均概率为99.3%,和其中任意三种搜索引擎检索结果匹配率平均值为95%,和任意一个搜索引擎检索结果的匹配率为30.4%。检索结果分析元搜索引擎dogpile.com在第一个检索结果页给出
8、付费和非付费检索结果和四种搜索引擎检索结果的覆盖率检索结果分析Google和Yahoo!付费结果交叉率,以及元搜索引擎dogpile.com在第一个检索结果页给出付费检索结果和四种搜索引擎检索结果的覆盖率检索结果分析总结不同的搜索引擎使用不同专利的索引技术,呈现给用户不同的查询结果,查询结果之间的差异还是比较大的。单一的搜索引擎不能检索出所有有用的结果给用户
此文档下载收益归作者所有