基于deep web检索的查询结果处理技术的应用

基于deep web检索的查询结果处理技术的应用

ID:33693129

大小:390.92 KB

页数:5页

时间:2019-02-28

基于deep web检索的查询结果处理技术的应用_第1页
基于deep web检索的查询结果处理技术的应用_第2页
基于deep web检索的查询结果处理技术的应用_第3页
基于deep web检索的查询结果处理技术的应用_第4页
基于deep web检索的查询结果处理技术的应用_第5页
资源描述:

《基于deep web检索的查询结果处理技术的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据1062010,31(1)计算机工程与设计ComputerEngineeringandDesign·信息化技术·基于DeepWeb检索的查询结果处理技术的应用周二虎,张水平,胡洋(空军工程大学电讯工程学院,陕西西安710077)摘要:针对当前DeepWeb信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足,将信息抽取与数据融合技术加以改进,提出了对查询结果页面进行处理的技术。该技术通过对HTML页面解析、信息过滤、分决、剪枝、提取抽取规则,实现了有效信息的

2、自动抽取。通过建立合并规则、去重规则、清洗规则,实现了数据的有效融合,并最终以统一的模式进行存储。最后,通过相关项目应用,验证了该技术的有效性和实用性。关键词:深网信息;结果处理;规则;信息抽取;数据融合中图法分类号:TP391文献标识码:A文章编号:1000-7024(20lo)01-0106-04ApplicationofdealingtechnologywithqueryresultsbasedondeepwebinformationretrievalZHOUEr-hu,ZHANGShui

3、—ping,HUYang(CollegeofTelecommunicationEngineering,AirForceEngineeringUniversity,Xi’an710077,China)Abstract:Tosolvepresentmultiplicityofcontentsandforms,difficult-extractionofeffecfiveinformationproblemsaboutqueryresultsfromwebdatabaseinde印webinforma

4、ti011retrieval,thetechnicalmethodsdealingwiththequeryresultsispresentedbyimprovingtheinformationextractionanddatafusiontechnology.Thetechnologyrealizesautomatic-extractionofeffectiveinformationthroughparsingofH舰documents,informationfiltrating,classif

5、ying,cutting,distillingextra.ionrules.Andfusionrules,none-reiterationrolesandcleanoutrulesareestablishedtorealizedata’Seffective-fusionanduniform—storage.Lastly,thevalidityandusefulnessoftheteeh-nologyisvalidatedbyrelatedprojects.Keywords:deepwebinfo

6、rmation;resultdisposal;rules;informationextzaction;datefusion0引言DeepWeb“1是如今网络发展的新的信息增长点,但因为技术或商业等原因,传统搜索引擎对由Web数据库动态产生链接返回的DeepWeb信息仍然无法捕获。DeepWeb信息检索,就是为了获取搜索引擎搜索不到的、数量巨大、价值很高的深网信息。检索系统对各个Web数据库提交查询后,将返回很多查询结果,大多是以网页的形式呈现,这些结果页面结构各异、纷繁复杂,不能直接被系统利用。

7、De印Web查询结果处理,就是将各个Web数据库返回的结果抽取并合并到一个统一的结构化的模式下,它是一个新兴的研究领域,如今已经得到了越来越多的关注。1基于Deepw曲检索的查询结果处理技术1.1查询结果处理中主要问题Web数据库返回的查询结果主要是通过HTML语言编写的页面来展现的,而HTML页面内容丰富,类别多样,更新频繁。因此,查询结果处理中的第一个问题就是从结果页面中抽取出有效信息。同时由于Web数据库的高度分散性和独立性,在相同领域内,各个Web数据库的数据经常存在大量的重复,因此在完

8、成抽取工作后,面临的第2个问题就是对抽取结果添加语义注释,完成结果的合并、去重、清洗,达到有效融合脚。1.2查询结果处理的关键技术DeepWeb查询结果处理包括两大关键技术——信息抽取与数据融合。1.2.1信息抽取技术信息抽取,其核心是能够从Web页所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构化、语意清晰的格式信息。抽取系统的输入是原始文本,输出是对应不同网站的结构不同临时数据库啪。1.2.2数据融合技术信息抽取出的数据依据不同的网站来源,形成了一个个缓冲数据库。这些数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。