欢迎来到天天文库
浏览记录
ID:46420882
大小:66.00 KB
页数:5页
时间:2019-11-23
《基于主题DeepWeb数据挖掘探究及探索》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于主题DeepWeb数据挖掘探究及探索摘要:通过分析DeepWeb信息的特点,提出一个可搜索不同主题DeepWeb框架。针对框架中DeepWeb数据库发现和DeepWeb爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的DeepWeb数据库和采用常用字最大限度下载DeepWeb信息的技术。关键词:DeepWeb;web数据库;数据挖掘;搜索引擎中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)16-3792-04ResearchBasedonDataMiningoftheDeepWebZHAOHao,WEIGang,ZHAOXiao-do
2、ng(ElectronicandInformationEngineeringDepartment,TongjiUniversity,Shanghai201804,China)Abstract:Characteristicsofdeepwebinformationareanalyzed,andaframeworkofcrawlerforsearchingdifferentsubjectinformstionindeepwebisputforward,tosolvethedifficultproblemsofdeepwebdatabasediscoveryanddeepwebcrawle
3、rcrawlingstrategy,thetech?nologiesofdiscoveringdifferentsubjectdeepwebdatabasequicklytousetheuniversalsearchengineanddownloadingdeepwebinforma?tiontotheutmostbyadoptingthecommonlyusedChinesecharactersareproposedrespectively.Keywords:DeepWeb;Webdatabase;datamining;searchengine随着Internet的发展和普及,如何
4、从互联网的海量信息中获取有效的信息成为当务之急。因此,以谷歌,百度等网页搜索引擎为代表的Internet信息资源检索技术发展迅猛。但是由于各种技术原因,传统网页搜索引擎一般只访问SurfaceWeb中利用超链接能够到达的文件、静态网页等信息资源,潜藏在DeepWeb网络数据库中得海量信息却得不到发现和有效利用。为了提高网络资源的利用率,DeepWeb数据挖掘成为Internet信息资源挖掘的新方向。深层网(DeepWeb),也称隐形网络(InvisibleWeb)和隐藏网络(HiddenWeb)。Web网资源按其蕴含信息的深度可以分为“表层网"(SurfaceWeb)和“深层网"(D
5、eepWeb)两大部分。表层网(SurfaceWeb)是指存储在Web并由超链接指向的文件、静态网页等资源,一般可以被传统搜索引擎访问到。深层网(DeepWeb)是指存储在网络数据库中、超链接无法指向而只能通过动态网页访问的资源集合,一般不能被传统的搜索引擎覆盖到。DeepWeb的资源容量是SurfaceWeb的数百倍,而且信息更专业,更有价值。访问DeepWeb网络数据库中的资源,需要通过动态网页的查询接口提交查询,DeepWeb的数据挖掘和传统搜索引擎的差别在于:1)DeepWeb数据挖掘检索后对结果的排序依据资源的某个属性的值,而搜索引擎检索结果的排序依据搜索结果与查询关键词的
6、相似程度。2)DeepWeb网络数据库的接口通常比较复杂,提供多种属性的选择,而搜索引擎的接口相对简单,一般为关键词的输入即可。3)DeepWeb数据挖掘的结果多是结构化的数据资源,而搜索引擎的结果通常是Web网页。在DeepWeb的研究与应用中,上述的第三部分内容更受关注,这是因为结构化信息更有利用价值且有大量与之相关的技术。DeepWeb数据挖掘通常是对网络数据库中结构化数据的提取。网络数据库(WDB)是指web中可通过接口访问的在线数据库。静态页面可以通过超链接直接访问,而网络数据库中的内容没有超链接指向,只有当用户查询时生成动态页面,将查询结果返回给用户(如图1所示)。以商业
7、网络数据库为例,如图书网站当当(http://home.省略),若用户想要查询有关数据库方面的图书,需要在如图2(a)所示的图书查询的查询接口中填入相关信息并提交,该动态网页就会返回给用户如图2(b)所示的符合查询条件的结果页面。1主题DeepWeb数据挖掘中的关键部分及其解决方案基于用户可以通过网站动态网页的查询接口访问隐藏在DeepWeb后台网络数据库的资源信息,该文提出一个主题DeepWeb数据挖掘的框架。如图3所示,使得该框架可以从Internet
此文档下载收益归作者所有