结构化搜索关键技术研究

结构化搜索关键技术研究

ID:34394835

大小:278.70 KB

页数:10页

时间:2019-03-05

结构化搜索关键技术研究_第1页
结构化搜索关键技术研究_第2页
结构化搜索关键技术研究_第3页
结构化搜索关键技术研究_第4页
结构化搜索关键技术研究_第5页
资源描述:

《结构化搜索关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、结构化搜索关键技术研究摘要:结构化搜索以垂直搜索为基础,它从Web页面中抽取结构化信息并存储,为用户提供更优质的搜索结果和更良好的搜索体验。要搭建一个结构化搜索引擎有几个关键步骤:设计主题爬虫,抓取与主题相关的网页;去除网页中的无用信息,即噪声,确定正文的位置;识别并提取网页中的实体并提取其属性值。本文分别就主题爬虫的设计、网页去噪和Web信息提取展开研究讨论,总结了前人提出的一些经典算法。关键字:主题爬虫,网页信息抽取,结构化搜索1.引言如今互联网信息的急速增涨并没有相应地提高人们获取信息的效率,搜索引擎虽然帮人们过滤了大量无关无用的信息,但用户从它的返回结果去查找自己想

2、要的内容仍然是件费时费力的事情。于是更加具有专业针对性的垂直搜索应运而生,垂直搜索专门针对特定的领域,比如新闻搜索、博客搜索、图片搜索、购物搜索、学术搜索等等,它通过缩小搜索的范围来提高搜索的精度和用户的满意度。结构化搜索是垂直搜索的进一步发展,它是把网页上无结构或半结构化的信息抽取成结构化的数据存储起来,识别实体的属性,并通过实体的属性把实体和实体之间的关系构建起来,使搜索引擎能够更好地与用户进行交互,并为用户提供决策支持。可见结构化搜索也是针对特定领域的,同时它相对于垂直搜索又多了一个技术难点--如何识别并提取网页的实体及其属性。比如现在的谷歌购物就是一个结构化搜索的例

3、子,它首先抓取各个商城的网页,识别网页上的实体(即商品名称),并抽取其属性(比如价格、性能、卖家联系方式等),然后使用关系型数据库或XML文档等把这些结构化的数据存储起来,这样用户在使用谷歌购物时不仅可以指定实体名,甚至在不知道实体名的情况下仅按属性搜索都可以得到自己想要的结果。目前各大搜索引擎公司都把结构化搜索作为自己的重点发展方向,其在技术实现上还有不小的困难与阻力,包括百度、携程网在内的收集结构化信息的网上服务都是以人工的方式进行的,谷歌、雅虎和微软联合发布了一个名为Schema.org的网站,上面包含了一套HTML标签,它们希望通过推广这些标签的使用,使搜索引擎能更

4、好地识别、遍历和索引结构化数据。本文的组织结构如下:第二部分讲主题爬虫,讲述如何保证爬虫抓取的网页与主题相关,以及并行爬虫的架构;第三部分讲去除网页中的噪声,准确定位有用信息的位置,并提取正文;第四部对Web信息抽取的各种方法进行了分类介绍;第五部分是笔者对今后结构化搜索研究工作的计划和目标的预期。2.主题爬虫的设计2.1.主题爬虫介绍要对Web文档建立索引首先要获取这些网页,这是通过网络爬虫(Spider)来实现的。在垂直搜索中针对特定主题网页的爬虫我们称为主题爬虫。主题爬虫通常采用广度优先的策略进行Web遍历。初始URL地址解析URLTODO队列Visited表新解析出

5、的URL图1.广度优先爬虫的过程爬取过的网页将其URL放在Visited表中。从TODO队列(或称爬虫队列)中取出一个URL后首先判断它是否在Visited表中,若不在则爬取相应网页,并分析该网页所包含的新的URL链接,将其放入TODO队列。爬虫队列用内存来存储是不现实的,像百度、谷歌有十几亿的URL需要爬取,最适合的方法是采用内存数据库,比如BerkeleyDB。而对于Visited表采用何种数据结构的问题,在企业级搜索引擎中常用布隆过滤器(BloomFilter)来实现对已抓取过的URL的过滤。2.2.网页主题相关性评价如何控制抓取的网页与特定主题相关这是主题爬虫的关键

6、。这里提供七种基本的思路:第一种是针对特定的行业,比如机票搜索,国内各大航空公司(只有20多家)网站及其代理人网站数量都是有限的。这种情况下可以直接指定要爬取的网站,并分析每个网站的源代码结构,从中提取自己想要的数据,存入数据库。第二种方法是基于URL规则,即用URL正则表达式来概括与主题相关的网页。[1]中详细描述了这种方法的使用。为解决主题孤岛的问题,它通过机器学习的方法学习主题相关页面和目录页面的URL正则表达式,只要匹配这两类正则表达式的URL都抓取。第三种方法是基于链接分析。根据主题邻近的假设,如果一个页面的链入者或链出者与主题相关,那么该页面也与主题相关,并且相

7、关度具有继承性。PageRank是经典的计算页面重要度的算法[2],用在主题相关度计算上同样适用。算法公式为表示成公式如下:PR()i=(1−d)+d∑[PRj()/Nj()]j其中i,j表示网页,函数PR表示网页的重要性,函数N表示网页的出去的链接数,j为链接向i的网页,d为一个衰减因子,取值范围为0到1,一般取0.85。然而,与主题相关的网页并不总是连在一起的,从一张主题相关网页出发往往需要经过几张与主题无关的页面后才能再次到达主题相关的页面,即所谓的“主题孤岛”现象。[1]中给出了几个解决方法:隧道技术、CF

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。