基于视觉特征的网页信息提取

基于视觉特征的网页信息提取

ID:33296019

大小:918.19 KB

页数:8页

时间:2019-02-23

基于视觉特征的网页信息提取_第1页
基于视觉特征的网页信息提取_第2页
基于视觉特征的网页信息提取_第3页
基于视觉特征的网页信息提取_第4页
基于视觉特征的网页信息提取_第5页
资源描述:

《基于视觉特征的网页信息提取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、*基于视觉特征的网页信息提取吴倩,杨逍,张兆心哈尔滨工业大学(威海)计算机科学与技术学院,威海,264209E-mail:yxyx3258@163.com摘要:在互联网技术高速发展的时代,Web成为全球最大的信息数据库,如何有效管理、利用Web信息是当前的热点问题,本文主要探讨了Web网页信息提取问题。传统的网页信息提取主要基于DOM树及HTML标签分析,文中在基于网页视觉特征分块算法VIPS基础上,通过归纳Web网页视觉特征及视觉块特征信息,提出了基于视觉块的定位算法的Web页面信息提取方法。分别将主题型

2、网页和BBS型网页作为VIPS算法的输入,分析VIPS算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等视觉特征量,提出了视觉块定位算法VBPA,定位主题信息块到VBT中的某一个节点,进而提取主题信息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息提取质量。关键词:VIPS;视觉块定位;VBPA;主题内容提取;BBS信息提取。WebinformationextractionbasedonvisualcharacteristicsWUQian,YANGXi

3、ao,ZHANGZhao-xinSchoolofComputerScienceandTechnologyHarbinInstituteofTechnology(Weihai),Weihai264209E-mail:yxyx3258@163.comAbstract:IntheageofrapiddevelopmentofInternettechnology,Webisbecomingtheworld'slargestdatabaseofinformation,howtoeffectivelymanagethe

4、useofWebinformationiscurrentlyahotissue.ThispaperdiscussestheissueofWebinformationextraction.TraditionalwebinformationextractionismainlybasedonDOMtreeandHTMLtaganalysis.BasedonVIPS,thepaperisproposedvisualblockpositioningalgorithmforWebpageinformationextra

5、ctionthroughinductionWebpagevisualfeaturesandvisualpiecesfeatureinformation.Thetheme-basedweb-siteandBBSweb-siteinputasVIPS,analysistheoutputofVIPSandthevisualblocktreeanddefinevisualcharacteristicssuchastextdensityandlinktextdensity.Thepaperputforwardavis

6、ualblockpositioningalgorithmVBPA.ItwillbethethemeoflocationinformationtoanodeVBT,andthentoextractthemeinformation.Experimentalresultsshowthatthevisualfeaturesofthevisualblockpositioningalgorithmaresuperiortothetraditionalwebinformationextractionalgorithman

7、dcanbeahigherqualityofinformationextraction.Keywords:VIPS;Visualpiecespositioning;VBPA;Subjectextraction;BBSinformationextraction1引言随着计算机的普及和互联网的迅猛发展,Internet上的信息资源正以惊人的速度增长,*作者简介:吴倩(1988-),女,安徽淮南人,本科生;杨逍(1990-),男,河南周口人,本科生;张兆心(1979-),男,黑龙江哈尔滨人,博士,副教授,主要研究

8、方向为网络安全。基金项目:网络危机响应系统关键技术研究(2007242A47)、哈尔滨工业大学校级科技立项(20090704011)。16Web已经成为这世界上最大的信息来源,在Web上检索信息已成为了一项重要的任务。网页具有丰富的内容表现与互动的特性,这些特性决定了网页从视觉表现形式上传达[1]着信息。视觉识别的重要特征是在网页上特殊信息,视觉特征在发现和提取网页信息时十分重要。本文从人们浏览网页的角度出发,利

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。