欢迎来到天天文库
浏览记录
ID:33693129
大小:390.92 KB
页数:5页
时间:2019-02-28
《基于deep web检索的查询结果处理技术的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据1062010,31(1)计算机工程与设计ComputerEngineeringandDesign·信息化技术·基于DeepWeb检索的查询结果处理技术的应用周二虎,张水平,胡洋(空军工程大学电讯工程学院,陕西西安710077)摘要:针对当前DeepWeb信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足,将信息抽取与数据融合技术加以改进,提出了对查询结果页面进行处理的技术。该技术通过对HTML页面解析、信息过滤、分决、剪枝、提取抽取规则,实现了有效信息的
2、自动抽取。通过建立合并规则、去重规则、清洗规则,实现了数据的有效融合,并最终以统一的模式进行存储。最后,通过相关项目应用,验证了该技术的有效性和实用性。关键词:深网信息;结果处理;规则;信息抽取;数据融合中图法分类号:TP391文献标识码:A文章编号:1000-7024(20lo)01-0106-04ApplicationofdealingtechnologywithqueryresultsbasedondeepwebinformationretrievalZHOUEr-hu,ZHANGShui
3、—ping,HUYang(CollegeofTelecommunicationEngineering,AirForceEngineeringUniversity,Xi’an710077,China)Abstract:Tosolvepresentmultiplicityofcontentsandforms,difficult-extractionofeffecfiveinformationproblemsaboutqueryresultsfromwebdatabaseinde印webinforma
4、ti011retrieval,thetechnicalmethodsdealingwiththequeryresultsispresentedbyimprovingtheinformationextractionanddatafusiontechnology.Thetechnologyrealizesautomatic-extractionofeffectiveinformationthroughparsingofH舰documents,informationfiltrating,classif
5、ying,cutting,distillingextra.ionrules.Andfusionrules,none-reiterationrolesandcleanoutrulesareestablishedtorealizedata’Seffective-fusionanduniform—storage.Lastly,thevalidityandusefulnessoftheteeh-nologyisvalidatedbyrelatedprojects.Keywords:deepwebinfo
6、rmation;resultdisposal;rules;informationextzaction;datefusion0引言DeepWeb“1是如今网络发展的新的信息增长点,但因为技术或商业等原因,传统搜索引擎对由Web数据库动态产生链接返回的DeepWeb信息仍然无法捕获。DeepWeb信息检索,就是为了获取搜索引擎搜索不到的、数量巨大、价值很高的深网信息。检索系统对各个Web数据库提交查询后,将返回很多查询结果,大多是以网页的形式呈现,这些结果页面结构各异、纷繁复杂,不能直接被系统利用。
7、De印Web查询结果处理,就是将各个Web数据库返回的结果抽取并合并到一个统一的结构化的模式下,它是一个新兴的研究领域,如今已经得到了越来越多的关注。1基于Deepw曲检索的查询结果处理技术1.1查询结果处理中主要问题Web数据库返回的查询结果主要是通过HTML语言编写的页面来展现的,而HTML页面内容丰富,类别多样,更新频繁。因此,查询结果处理中的第一个问题就是从结果页面中抽取出有效信息。同时由于Web数据库的高度分散性和独立性,在相同领域内,各个Web数据库的数据经常存在大量的重复,因此在完
8、成抽取工作后,面临的第2个问题就是对抽取结果添加语义注释,完成结果的合并、去重、清洗,达到有效融合脚。1.2查询结果处理的关键技术DeepWeb查询结果处理包括两大关键技术——信息抽取与数据融合。1.2.1信息抽取技术信息抽取,其核心是能够从Web页所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构化、语意清晰的格式信息。抽取系统的输入是原始文本,输出是对应不同网站的结构不同临时数据库啪。1.2.2数据融合技术信息抽取出的数据依据不同的网站来源,形成了一个个缓冲数据库。这些数据
此文档下载收益归作者所有