基于deep web检索的查询结果处理技术的应用

ID：33693129

大小：390.92 KB

页数：5页

时间：2019-02-28

资源描述：

《基于deep web检索的查询结果处理技术的应用》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、万方数据1062010，31(1)计算机工程与设计ComputerEngineeringandDesign·信息化技术·基于DeepWeb检索的查询结果处理技术的应用周二虎，张水平，胡洋(空军工程大学电讯工程学院，陕西西安710077)摘要：针对当前DeepWeb信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足，将信息抽取与数据融合技术加以改进，提出了对查询结果页面进行处理的技术。该技术通过对HTML页面解析、信息过滤、分决、剪枝、提取抽取规则，实现了有效信息的

2、自动抽取。通过建立合并规则、去重规则、清洗规则，实现了数据的有效融合，并最终以统一的模式进行存储。最后，通过相关项目应用，验证了该技术的有效性和实用性。关键词：深网信息；结果处理；规则；信息抽取；数据融合中图法分类号：TP391文献标识码：A文章编号：1000-7024(20lo)01-0106-04ApplicationofdealingtechnologywithqueryresultsbasedondeepwebinformationretrievalZHOUEr-hu，ZHANGShui

3、—ping，HUYang(CollegeofTelecommunicationEngineering，AirForceEngineeringUniversity,Xi’an710077，China)Abstract：Tosolvepresentmultiplicityofcontentsandforms，difficult-extractionofeffecfiveinformationproblemsaboutqueryresultsfromwebdatabaseinde印webinforma

4、ti011retrieval，thetechnicalmethodsdealingwiththequeryresultsispresentedbyimprovingtheinformationextractionanddatafusiontechnology．Thetechnologyrealizesautomatic-extractionofeffectiveinformationthroughparsingofH舰documents，informationfiltrating，classif

5、ying，cutting，distillingextra．ionrules．Andfusionrules，none-reiterationrolesandcleanoutrulesareestablishedtorealizedata’Seffective-fusionanduniform—storage．Lastly,thevalidityandusefulnessoftheteeh-nologyisvalidatedbyrelatedprojects．Keywords：deepwebinfo

6、rmation；resultdisposal；rules；informationextzaction；datefusion0引言DeepWeb“1是如今网络发展的新的信息增长点，但因为技术或商业等原因，传统搜索引擎对由Web数据库动态产生链接返回的DeepWeb信息仍然无法捕获。DeepWeb信息检索，就是为了获取搜索引擎搜索不到的、数量巨大、价值很高的深网信息。检索系统对各个Web数据库提交查询后，将返回很多查询结果，大多是以网页的形式呈现，这些结果页面结构各异、纷繁复杂，不能直接被系统利用。

7、De印Web查询结果处理，就是将各个Web数据库返回的结果抽取并合并到一个统一的结构化的模式下，它是一个新兴的研究领域，如今已经得到了越来越多的关注。1基于Deepw曲检索的查询结果处理技术1．1查询结果处理中主要问题Web数据库返回的查询结果主要是通过HTML语言编写的页面来展现的，而HTML页面内容丰富，类别多样，更新频繁。因此，查询结果处理中的第一个问题就是从结果页面中抽取出有效信息。同时由于Web数据库的高度分散性和独立性，在相同领域内，各个Web数据库的数据经常存在大量的重复，因此在完

8、成抽取工作后，面临的第2个问题就是对抽取结果添加语义注释，完成结果的合并、去重、清洗，达到有效融合脚。1．2查询结果处理的关键技术DeepWeb查询结果处理包括两大关键技术——信息抽取与数据融合。1．2．1信息抽取技术信息抽取，其核心是能够从Web页所包含的无结构或半结构的信息中识别用户感兴趣的数据，并将其转化为结构化、语意清晰的格式信息。抽取系统的输入是原始文本，输出是对应不同网站的结构不同临时数据库啪。1．2．2数据融合技术信息抽取出的数据依据不同的网站来源，形成了一个个缓冲数据库。这些数据

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于deep web检索的查询结果处理技术的应用

基于deep web检索的查询结果处理技术的应用

相关文章

相关标签