deep web页面论文:deep web页面结构分析与核心内容提取研究

deep web页面论文:deep web页面结构分析与核心内容提取研究

ID:5199085

大小:31.00 KB

页数:6页

时间:2017-12-06

deep web页面论文:deep web页面结构分析与核心内容提取研究_第1页
deep web页面论文:deep web页面结构分析与核心内容提取研究_第2页
deep web页面论文:deep web页面结构分析与核心内容提取研究_第3页
deep web页面论文:deep web页面结构分析与核心内容提取研究_第4页
deep web页面论文:deep web页面结构分析与核心内容提取研究_第5页
资源描述:

《deep web页面论文:deep web页面结构分析与核心内容提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、DeepWeb页面论文:DeepWeb页面结构分析与核心内容提取研究【中文摘要】随着互联网的高速发展和广泛应用,网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著,称这部分资源为DeepWeb。关于DeepWeb的研究,是近年来Web数据管理方向的研究热点。在DeepWeb数据提取方面,很多工作都是对DeepWeb页面数据记录或是数据项的研究,如何深入分析DeepWeb整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分,但是这两项研究内容对DeepWeb语义标注、D

2、eepWeb数据提取、Web信息检索和文本处理具有重要意义。因此,本文主要的研究工作聚焦于任意DeepWeb页面内容结构的提取和DeepWeb查询结果页面核心内容域的提取。主要研究及成果如下:第一:DeepWeb页面的标签特征和视觉特征本文通过分析大量的DeepWeb页面发现,DeepWeb页面具有标签和视觉两方面的特征。从这两个方面入手,提出了一种结合标签信息和视觉信息分析页面的方法,该方法从客观和主观两方面分析了DeepWeb页面的特征。采用树型的结构来表述页面的标签信息和视觉信息,分别使用Tag-Tree表

3、示页面的标签信息,使用Visual-AttributeTree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。第二:DeepWeb页面内容结构的提取本文采用树型结构来表示页面的内容结构,将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面,树中的每个块对应着页面中的一个矩形区域,树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法,实验表明该算法能很好地提取页面的内容结构。

4、?第三:DeepWeb查询结果页面核心内容域(rich-contentarea)的提取本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块,从这些内容块中提取出rich-contentarea,实验表明了该方法的可行性和有效性。【英文摘要】WiththerapiddevelopmentandextensiveapplicationoftheInternet,Networkresources,especiallytheDeepWebres

5、ourceswhichtraditionalsearchenginescannotsearch,aredramaticallyincreasing.ItisahotspotofWebdatamanagementtostudyDeepWeb.CurrentresearchesonDeepWebdataextractionareonlyconcernedwiththedatarecordsanddataitems’extractionwithoutthinkingmuchaboutstudyingthewholest

6、ructureofDeepWebpagesandhowtogettheareawhichcontainsthedatarecordsfromtheDeepWebpage.However,theinvestigationsofthesetwoaspectsareofgreatimportance.Therefore,thispaperprimarilyfocusesonextractingthecontentstructureofDeepWebpageandtherich-contentareaoftheresul

7、tingpageofDeepWebquery.ThisisverymeaningfulforsemanticDeepWeb,DeepWebdatarecordsanddataitemextraction,Webinformationretrieval,textprocessingandsoon.Themaincontentsofthisthesisareasfollows:①TagandvisionfeaturesofDeepWebpagesByanalyzingnumerousDeepWebpages,itis

8、discoveredthatDeepWebpageshavetagandvisionfeatures.Accordingtothesefeatures,anovelapproachwhichcombinestaginformationandvisioninformationisproposedtoanalyzeDeepWebpagesfromboththesubjecti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。