基于规则集的deep web信息检索new

基于规则集的deep web信息检索new

ID:33484233

大小:176.89 KB

页数:3页

时间:2019-02-26

基于规则集的deep web信息检索new_第1页
基于规则集的deep web信息检索new_第2页
基于规则集的deep web信息检索new_第3页
资源描述:

《基于规则集的deep web信息检索new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com第34卷第13期计算机工程2008年7月VoL34No.13ComputerEngineeringJuly2008·软件技术与数据库·文章编号。100_3428(2008)1》一_0051—3文献标识码。A中圈分类号。TP311基于规则集的DeepWeb信息检索杨巨蜂,史广腰,赵玉娟.一,王庆人(1.南开大学机器智能研究所,天津300071;2.天津市气象信息中心,天津300074)摘要:提出一种基于规则集的新型DeepWeb信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、

2、数据清洗等引入了DeepWeb特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。关健词:信息检索;深层网络;规则集;数据提取Rules.basedDeepWebInformationRetrievalYANGJu.feng,SHIGuang.shun,ZHAOYu-juan,WANGQing-ren(1InstituteofMachineIntelligence,NankaiUniversity,Tianjin300071;

3、2.TianjinMeteorologicalInformationCenter,Tianjin300074)[Abstract

4、Thispaperproposesanovelrules—basedmodeltOextractdatafromDeepWebpages.Themodelcomprisesfourlayers,mainprocessingpartsastaskallocation,informationextraction,datacleaningwhichworkbasedontherulesofstructure,logic

5、andapplication.ItappliesthenewmodeltOthreeintelligentsystem,scientificpaperretrieval,electronicticketorderingandresumesearching.Experimentalresultsshowthattheproposedmethodisrobustandfeasible.【Keywordslinformationretrieval;DeepWeb;rulesset;dataextraction1概述的一组DeepWeb站点。以所得

6、页面的结构特征为基础提取数据,并利用逻辑规则协助校正。最后对原始数据集进行清网络上大部分内容不能通过静态链接直接获取,特别是大部分隐藏在搜索表单之后的页面只有通过用户键入一系列洗和排序,使其符合应用习惯并可以被用户接IZl直接使用。关键词才可以获得。与SurfaceWeb相比,DeepWeb中蕴含2.1模型结构水文提出的模型自下而上依次包含4个主要层次,如的信息量达到其400倍~500倍,访问量高出15%,而且数据质量相对更高”J。图1所示。随着网络技术的发展,DeepWeb信息检索技术成为研究应用层r的热点。这类研究致力于帮助人们自动地获

7、取并利用自由分布在DeepWeb中的丰富信息。一些论文探讨从Internet上发碟罾疆l兰卜_竺!l现DeepWeb数据库的技术J,另一些则研究从查询接I:1中分决策层一暖1、析和提取属性并构建统一模式的方法,这项研究有助于集,数据提取层成多个DeepWeb,并向用户提供访问异构站点和数据库的统辑到1、一途径。DeepWeb研究的另一个重要领域是数据提取,即将,用户感兴趣的信息从半结构或无结构的Web页面上抽取出辽嘏l竺卜_!兰皇l一数据链路层来,并保存为XML文档或关系模式。。一目前,研究者开始关注语义信息对DeepWeb的影响j。上述文

8、献的研究覆盖了DeepWeb信息检索的各主要环图1基于规尉集的DeepWeb信息检索模型节。但研究者在讨论理论模型和理想化的算法时,往往忽略了相关技术应用于实际时可能遇到的问题。这些问题包括:(1)数据链路层:处于模型的最底层,是模型与DeepWeb在驱使爬虫访问DeepWeb时,如何选择最有可能得到理想站点之间的通信接1:I。任务分派模块负责选择相关度最高的结果的目标站点集合;如何优化现有解析方法使其面对结构目标网站,网络爬虫并行实施访问,并获取初始结果页面。各异的页面时通用并且鲁棒,因为这些页面通常是使用不同(2)数据提取层:分析HTM

9、L结果页面的结构特征和逻辑技术构建的;对获得的DeepWeb数据做怎样的处理使其能特征,确定各单元数据的含义,生成原始数据集。更好地应用于实际。(3)决策层:对上一步生成的原始数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。