正文描述:《基于布局特征与语言特征的网页主要内容块发现》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于布局特征与语言特征的网页主要内容块发现韩先培,刘康,赵军(中国科学院自动化研究所模式识别国家重点实验室,北京100080)摘要:本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点
2、上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。关键词:网页清理;主要内容块发现;网页切分;布局特征;语言特征AWeb-pageContentBlockDetectionMethodBasedonLayoutFeaturesandLanguageFeaturesXianpeiHAN,KangLIU,JunZHAO(NationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,Beijing,100080)Abstract:Thispaperanalyzedth
3、edifferentfeaturetypesofweb-pageblocks,andpresentedaWeb-pagecontentblockdetectionmethodbasedonlayoutfeaturesandlanguagefeatures,whicheffectivelyresolvedtheseesawproblembetweendetectionaccuracyandmodelgeneralityacrossdifferenttypesofweb-pages.Themethodusedthevision-blocktreetorepresentweb-page,bu
4、ilttwoindividualclassifiersrespectivelyforweb-page’slayoutfeaturesandlanguagefeatures,anduseddifferentstrategiestocombinethesetwoclassifiers.Theexperimentalresultsshowthat,withholdingthecontentblockdetectionrecallhigherthan90%,the基金资助:本文受国家自然科学基金项目(60673042)和北京市自然科学基金项目(4052027,4073043)资助作者简介:韩先
5、培(1984-),男,江西,学生,博士email:xphan@nlpr.ia.ac.cn1combinedclassifiers’accuracycanreach85percents,5percentshigherthantheclassifierusingonlythelayoutfeatures,and15percentshigherthantheclassifierusingonlythelanguagefeatures;andtheexperimentalresultsalsoshowthatthecombinedclassifiersobtainedgooddetection
6、performanceoverfiveselectedwebsiteswhichmeansthatithavegoodgenerality.keywords:Web-pagecleaning;Contentblockdetection;Web-pagesegment;Layoutfeature;Languagefeature1引言随着互联网的发展,网站和网页数量呈现出爆炸式的增长,一方面极大地增加了互联网的知识总量,另一方面也对信息处理的技术,特别是信息检索领域,提出了新的技术挑战。因为互联网上的绝大部分信息以网页html文本的方式进行存储,相应地,人们将应用于传统文本的技术移植到互联
7、网信息处理的领域里来。但是,不同于传统的文本,网页存储的信息具有以下两个特点:(1)多主题:在网页中,一个网页可能分成多块,每一块里描述了相对独立的主题。(2)噪音信息:网页中不仅仅包含网页设计者所要表达的意思的信息,网页中还混杂有其它的许多噪音,比如广告条、浏览框、修饰的图片、公司logo等等。由于网页具有这些特点,使得处理传统文本的技术应用到网络文本时,效果不尽理想。这使得有必要在应用传统的文本技术之前,对网页进行一个预处理,使得网页适合于
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。