基于领域知识的deep+web接口发现研究

基于领域知识的deep+web接口发现研究

ID:33104137

大小:2.23 MB

页数:50页

时间:2019-02-20

基于领域知识的deep+web接口发现研究_第1页
基于领域知识的deep+web接口发现研究_第2页
基于领域知识的deep+web接口发现研究_第3页
基于领域知识的deep+web接口发现研究_第4页
基于领域知识的deep+web接口发现研究_第5页
资源描述:

《基于领域知识的deep+web接口发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学硕士学位论文基于领域知识的DeepWeb接口发现研究姓名:姚增利申请学位级别:硕士专业:计算机应用技术指导教师:袁方20090501摘要摘要随着Internet技术的快速发展,Web数据库越来越受到人们的重视,Web按其所蕴含信息的“深度"可以分为SurfaceWeb和DeepWeb两部分。与SurfaceWeb相比,DeepWeb蕴藏了更加丰富、更加专业的信息,为了有效的利用这些信息,建立DeepWeb数据集成系统成为当前研究的热点,而DeepWeb接口发现是建立DeepWeb数据集成系统的首要

2、工作。DeepWeb接口发现需要解决4个方面的问题:(1)找到可能包含领域I为DeepW

3、eb接口的网站。(2)从找到的网站中识别出领域t内DeepW曲接13。(3)评估发现的领域内DeepWeb接口的覆盖率。(4)抽取/出DeepWeb接口的属性信息。对于第一个问题,利用搜索引擎是一种行之有效的办法,它的难点在于如何设计查询提交词,进而实现用较少的查询提交词快速发现尽可能多的领域I为DeepWeb接口,本文提出了基于领域知识的查询提交词确定方法,该方法包括三部分:(1)基于领域知识计算查询提交词的知名度

4、,即利用领域知识确定出检查某词是否符合高知名度的特征词,把该词和该词的特征词作为组合词提交到搜索引擎,统计目标网站精确匹配组合词的个数,个数越多,则说明该词和特征词越匹配,从而该词的知名度就越高,该词能找到含有领域I内DeepW

5、eb接口数越多。(2)基于领域知识的URL过滤,即通过URL中含有的领域知识快速排除和本领域无关的网站,且剩余的网站数目越多,则含有领域t为DeepWeb接口的网站数也越多,计算剩余网站个数并降序排列,从而排在前面的一个词要比排在后面的一个词找到的领域I内DeepWeb接口数多。

6、(3)查询提交词确定流程。实验表明该方法可实现用较少的查询提交词快速发现尽可能多的领域I内DeepWeb接口。对于第二个问题,本文提出基于支持向量机的DeepWeb接口判定方法,该方法具有较高的查准率和查全率。对于第三个问题,本文提出基于集成网站评估发现领域t为DeepWeb接13的覆盖率方法,该方法具有一定的参考价值。对于第四个问题,本文提出基于DOM树和正则表达式的DeepWeb接13信息抽取方法,该方法能准确的抽取出所需要的信息,且简单易行。关键词DeepWeb接口领域知识搜索引擎支持向量机Abst

7、ractWiththerapiddevelopmentofInternettechnology,moreandmorepeoplepayattentiontothewebdatabases.Accordingtothe“depth”oftheinformation,thewebCallbedividedintoSurfaceWebandDeepWeb.DeepWebcontentsorientedtheDomain—special,withhi曲qualitysuperiortoSurfaceWeb.To

8、makeuseoftheabundantinformationinDeepWebeffectively,itbecomesallurgentdemandtoestablishDeepWebIntegrationSystem.InterfacediscoveryistheprerequisiteworkinDeepWebIntegrationSystem.DeepWebinterfacediscoveryneedstoaddressthefollowingfourproblems:(1)Findwebsit

9、esmaycontainthefieldDeepWebinterface;(2)IdentifythetrueDeepWebinterfacefromthewebsites;(3)AssessthecoveragewhichthefoundinterfacestakeupthewholenumbersofthefieldDeepWebinterfaces;(4)ExtracttheattributeinformationoftheDeepWebinterface.Astothefirst,weemploy

10、searchenginetofindasmanyinterfacesaspossiblewithfewquerywordsandexperimentsprovetobeeffective.Thedifficultyofthemethodistohowtochoosequerysubmittedwords.Inthispaper,wepresentthemethodaboutdeterminingquerywordsWithdo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。