欢迎来到天天文库
浏览记录
ID:22934585
大小:423.61 KB
页数:23页
时间:2018-11-02
《面向领域的deepweb查询接口发现研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、面向领域的deepweb查询接口发现研宄第一章绪论1.1研究背景互联网自从被发明的那一刻起就深刻地改变了我们每个人的生活,影响到了社会的方方面面,互联网对影响人们生活的集中体现就是能够通过大量的存储信息和快速的传递信息,极大地降低了社会运行成本,互联网也因此优势获的了飞速发展,与此同时而来的是网络信息的爆发式增长,统计表明,截止2013年1月,中国的网页总长度(总字节数)己经达到492155GB,且己同比55.14%的増长率飞速増长。如此海量的信息若能去伪存真加以合理利用,必能最大化地实现信息价值,这是针对web领域研宄
2、的目的所在。互联网信息因其海量数据看起来庞杂不堪,人们一般根据其信息获取方式的不同和获取难度将其分为SurfaceWeb(表面网络)和DeepWeb(深层网络)。SurfaceWeb是这样的一些页面的集合,他们能够被我们通常所用的搜索引擎所搜索到;而DeepWeb是一个与SurfaceWeb相对应的概念,在1994年由吉尔埃尔斯沃思博士Ul提出的不可以是传统搜索引擎搜索到的web页。因此,从这个意义上说,DeepWeb指向的内容很多,几乎囊括了所有人们能在网络上获取的信息。相对于网络上的静态页面,人们对服务器后台数据库产
3、生的数据更感兴趣,而这是需要査询获得的,一般方式是通过提交请求,然后后台数据库根据请求返回所要求的信息,这部分内容是人们更加关心更加想要得到的。人们把这些知识发现并且可以动态查询的结果称为Web数据库,它和静态页面的根本区别是动态获得的,一般通过填写表单请求得到的。随着使用各种动态数据库在各类网站的普及,通过对网站的动态数据库的访问己经成为人们获取信息的基本手段,也加大了获取Web深层数据的难度,而对DeepWeb的研宄也越来越受到人们的关注。DeepWeb受到如此多的关注的原因在于它所提供的信息不但多而且利用价值大,即
4、兼备海量性和专业性。根据2012年全球互联网发展报告的数据指出,截止2011年12月,全球网站数量己达5.55亿个,可以想见,其中绝大部分网站都包含了Web数据库。此前的调查显示:(1)DeepWeb蕴含的信息量是SurfaceWeb的400-500倍。(1)对DeepWeb数据的访问量比SurfaceWeb要高出15%。(2)DeepWeb蕴含的信息量比SurfaceWeb的质量更高。(3)DeepWeb的增长速度要远大于SurfaceWeb。(4)超过半数的DeepWeb的内容是局限于某个特定领域的,即面向某个领域。
5、(5)DeepWeb包括了商业社会的各个方面,比如金融、教学、政府等等。(6)DeepWeb上95%的信息是可以公开访问的,即免费获取。由此可见,DeepWeb的信息在数量,质量和易存取性上都更胜一筹。但DeepWeb的复杂性也是显而易见的,复杂性集中体现在Web数据库数量多,实现技术多样,信息易更改等等。因此,如何快速的获取DeepWeb中隐藏的信息成为我们亟待解决的问题,对于怎么样取得DeepWeb中的信息的研究具有重要的现实意义,其中包括,查询接口发现,查询接口抽取,查询接口分类,查询转换,结果合成等,查询接口作为
6、第一步对整个信息的提取过程有着重要的意义,其准确性和效率直接关系到我们所抽取信息的价值大小。因此,如何准确判定哪些表单是所需要的査询接口意义重大。1.2研究现状国内外对DeepWeb的研究取得了一些进展,攻克了一些技术难点。但近几年该研宄领域的进展比较缓慢,很少有取得重大进步。由于Deepweb中蕴含有巨大的信息,这些信息对人们有着重要意义。现有的工作中很多都是对如何取得DeepWeb信息内容的研宄,它们大多集中于如何实现表单自动获取,数据源的选择等方面。然而这些研宄的基础是己经获得准确的查询接口,关于怎么样判别提取表单
7、的接口方面的研究比较匮乏。近些年提出了一些能够在无人干预的条件下自动封装和提取DeepWeb数据的方法,其中包括MDR[2],MDRII[3],RoadRunner'MDR和MDRII是建立在标签树的结构特征之上的,是在相似子树中寻找结构化数据。当网页结构比较清晰时这种处理方式效果良好。然而当网页结构多变或者存在很多的扰乱信息时该方法无法得出准确结果。RoadRuuner则是使用一种封装器启发式学习算法,它能够通过比较样本页面的相同或类似点和不匹配点来训练学习,这样数次迭代就能够分辨出可选属性和嵌套属性,但是算法有一个指
8、数时间复杂度。DU等人l5j提出页面分割法:首先将网页分割成为几个独立的部分,将不包含查询接口的部分移除掉,然后建立基于主题的查询最后通过分析查询结果获得我们需要的深层网络接口。然而,由于该方法在判别之前,需要由客户端提交査询请求,造成网络传输量加大,使用范围受到限制。文献[6]提出了一种针对主题相关性及链接重要性的
此文档下载收益归作者所有