基于dom树的deepweb接口属性自动提取算法

基于dom树的deepweb接口属性自动提取算法

ID:5798953

大小:376.50 KB

页数:6页

时间:2017-12-25

基于dom树的deepweb接口属性自动提取算法_第1页
基于dom树的deepweb接口属性自动提取算法_第2页
基于dom树的deepweb接口属性自动提取算法_第3页
基于dom树的deepweb接口属性自动提取算法_第4页
基于dom树的deepweb接口属性自动提取算法_第5页
资源描述:

《基于dom树的deepweb接口属性自动提取算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于DOM树的DeepWeb接口属性自动提取算法基金项目:国家科技支撑计划课题(2006BAJ09B05)作者简介:朱杨(1986-),男,贵州兴仁人,硕士研究生,主要研究方向为Web搜索与挖掘;段青玲(1967-),女,副教授,硕士生导师,主要研究方向为数据库和Web信息管理;张莉(1960-),女,教授,硕士生导师,主要研究方向为网络数据库技术。朱杨,段青玲(中国农业大学信息与电气工程学院计算机系,北京100083)摘要:DeepWeb接口集成是为了向用户提供一个统一的查询接口来获取DeepWeb信息。要完成DeepWeb接口集成,首先需对各DeepWeb接口的属性进行自动提取,

2、它们是后续集成工作的基础,如何将属性与其对应的语义文本进行准确的匹配是其中的难点。本文提出了一种基于表单DOM树的DeepWeb接口属性自动提取算法,以控件节点作为起始节点,然后通过自右向左遍历的方式逐层寻找与控件相对应的语义文本,从而确定每个属性的语义信息,最后将提取的接口属性集采用XML格式保存,实验结果表明此算法具有较高的提取准确率。关键词:深网;查询接口;表单;属性提取中图法分类号:TP391文献标识码:ATheAlgorithmforAutomaticExtractionofDeepWebInterfaceAttributesbasedonDOMTreeYang,ZhuQi

3、nglingDuan,1(CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)Abstract:DeepWebinterfaceintegrationisinordertoprovideauniformqueryinterfaceforuserstoaccessDeepWebinformation.Automaticextractionofinterfaceattributesisneededfirsttocompletetheintegration,

4、whichisbasisforthefollow-upintegrationwork.Thedifficultyisfindingthematchingsemantictextforeachattribute.ThispaperpresentsanalgorithmforautomaticextractionofdeepwebinterfaceattributesbasedonDOMtree,whichtraversesthenodesfromrighttolefttosearchthematchingtextforeachattributestartingfromthecontro

5、ltodeterminethesemanticinformationofeachattribute,andconservetheattributeswithXML.Theexperimentresultsshowgoodperformanceofthealgorithm.Keywords:deepweb;queryinterface;form;attributeextraction随着Web的发展,Internet中的信息正加速地“深化”[1,2],有大量的页面是由后台数据库动态产生的。传统搜索引擎不能索引这些页面,这部分不可见信息被称为DeepWeb(深网)。DeepWeb是与Su

6、rfaceWeb(浅层网)相对应的概念,和浅层网相比其特点是信息量更大,主题更专一,信息结构化更好[3]。研究结果显示,DeepWeb信息量是SurfaceWeb的400~550倍,2004年整个Web上的Web数据库数量已达到450000个,而这个数字仍在飞速增长[4,5]。近年来对DeepWeb研究正逐渐兴起,而研究的根本目的是帮助用户提供一个统一的访问途径来获取利用分布在Web上的海量DeepWeb信息。而DeepWeb查询接口集成正是为用户提供一个统一的查询接口,使之可以同时向多个同一领域内的查询接口提交查询,即达到同时访问多个Web数据库的目的[6,7]。接口集成的首要工作

7、是将各个查询接口的相关属性准确的提取并保存。这些属性集是下一步工作的基础,包括对查询接口的自动分类和同一类的各接口间属性的匹配映射等。1研究现状目前的研究工作大多都集中在Web数据库的发现、数据源分类聚类以及查询接口模式匹配等方面,而关于DeepWeb接口属性自动提取方面的研究较少。文献[8-10]对于整个页面结构的分析有了较为细致的工作,针对查询接口结构的分析,以文法分析的方式来完成对查询接口属性的抽取,这种方法首先通过观察与统计提出这样一个假设:所有查

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。