垂直搜索引擎的关键技术研究

垂直搜索引擎的关键技术研究

ID:34453303

大小:223.56 KB

页数:3页

时间:2019-03-06

垂直搜索引擎的关键技术研究_第1页
垂直搜索引擎的关键技术研究_第2页
垂直搜索引擎的关键技术研究_第3页
资源描述:

《垂直搜索引擎的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、学术研讨垂直搜索引擎的关键技术研究余淼,杨丹,赵俊芹(重庆大学软件学院,重庆400045)摘要:垂直搜索引擎是目前Web搜索领域最受关注的研究热点。从概念和技术两个方面介绍了垂直搜索引擎的工作流程和关键技术,并将其分为网页抓取、信息抽取及建立倒排索引、信息检索等3个模块进行了研究。关键词:垂直搜索;信息抽取;倒排索引中图分类号:TP311文献标识码:A文章编号:1672-7800-(2007)12-0031-03索引擎,就可以到摩托车1垂直搜索引擎介绍门户网站进行抓取。这一1.1垂直搜索模块还包含对网页进行预垂直搜索是针对某一特定领域、某一处理

2、,去除掉一些不符合特定人群或某一特定需求提供的有一定主题规范的网页,然后进价值的信息和相关服务,其特点就是专、行网页净化,使之符合抽精、深,且具有行业色彩,它是与通用搜取的规范。索引擎截然不同的引擎类型。垂直搜索第二步是信息抽取和引擎专注具体、深入的纵向服务,致力于索引模块,该模块的主要某一特定领域内信息的全面和内容的深目的是生成倒排索引,并入,对于领域外的闲杂信息不收录。且存储到数据库中,便于搜索领域有句名言:用户无法描述他查询模块中查全率和查准要找什么,除非让他看到想找的东西。微率的提高。该模块承前启软研究院一名技术专家说:“75%的内容后

3、,是垂直搜索引擎中最图1垂直搜索引擎的流程通用搜索引擎搜索不出来”。而垂直搜索重要的一环。其中最为关引擎的诞生则是为了更大程度地提高搜键的步骤就是对第一步得到的大量网页2.1网络蜘蛛概念索的“查全率”和“查准率”。垂直搜索引进行信息抽取,从大量结构化和非结构网络蜘蛛即WebSpider,是一个很形擎通过对行业领域内的信息模型和用户化的数据中提取信息。然后对提取的信象的名字。把互联网比喻成一个蜘蛛网,模型结构化的搜集或再组织,提供更多、息进行中文分词,建立倒排索引,生成索那么Spider就是在网上爬来爬去的蜘蛛。更专业、个性化的行业相关服务。引文

4、件,存储到数据库中。网络蜘蛛是通过网页的链接地址来寻找1.2垂直搜索引擎的工作流程和主要技第三步就是设计查询页面和查询的网页的,从网站某一个页面(通常是首术算法,使用户可以按照第二步得到的索页)开始,读取网页的内容,找到在网页垂直搜索引擎主要分为3个功能模引文件进行查询。该步的关键在于如何中的其它链接地址,然后通过这些链接块(图1)。网页抓取模块(WebSpider)是垂设计优秀的查询算法,评定网页的“重要地址寻找下一个网页。这样一直循环下直搜索引擎的第一步,该模块从互联网度”,努力提高查全率和查准率。去,直到把这一网站所有的网页都抓取完为止。

5、如果把整个互联网当成一个网海量的信息里抓取与搜索主题相关的网2网页抓取模块站,那么网络蜘蛛就可以用这个原理把页。例如,设计一个摩托车行业的垂直搜作者简介:余淼(1983-),男,重庆人,重庆大学软件学院硕士研究生,研究方向为计算机应用、企业信息化;杨丹(1962-),男,重庆人,博士,重庆大学教授,研究方向为计算机应用、企业信息化;赵俊芹(1982-),女,重庆人,重庆大学软件学院硕士研究生,研究方向为计算机应用、企业信息化。软件导刊·2007·12月号31学术研讨互联网上所有的网页都抓取下来。象是文本文件。而对于网络蜘蛛来说,其Web日志挖掘

6、,就是通过对Web日志记对于搜索引擎来说,要抓取互联网上抓取的网页包括各种格式,如html、图录的挖掘,发现用户访问Web页面的模所有的网页几乎是不可能的,从目前公片、doc、pdf、多媒体、动态网页及其它格式,从而进一步分析和研究Web日志记布的数据来看,容量最大的搜索引擎也式等。这些文件被抓取下来后,需要把其录中的规律,以期改进Web站点的性能不过是抓取了整个网页数量的百分之四中的文本信息提取出来。准确提取这些和组织结构,提高用户查找信息的质量十左右。这其中的原因一方面是抓取技文档的信息,一方面对搜索引擎的搜索和效率,并通过统计和关联的分析

7、找出术的瓶颈,无法遍历所有的网页,有许多准确性有重要作用,另一方面对于网络特定用户与特定地域、特定时间、特定页网页无法从其它网页的链接中找到;另蜘蛛正确跟踪其它链接也有一定影响。面等要素之间的内在联系。一方面是存储技术和处理技术的问题,网络蜘蛛在搜索引擎中占有重要位3.2Web信息抽取的主要方法如果按照每个页面的平均大小为20K计置,对搜索引擎的查全、查准都有影响,一类是基于层次结构的信息抽取归算(包含图片),100亿网页的容量是决定了搜索引擎数据容量的大小。同时,纳方法,即基于层次结构的Wrapper归100×2000G字节,即使能够存储,下

8、载也它的好坏还直接影响到搜索结果页中的纳方法。尽管页面的类型、结构、版面各存在问题(按照一台机器每秒下载20K死链接(即链接所指向的网页已经不存异,但

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。