网页去噪_研究综述

网页去噪_研究综述

ID:33926796

大小:1.52 MB

页数:12页

时间:2019-02-28

网页去噪_研究综述_第1页
网页去噪_研究综述_第2页
网页去噪_研究综述_第3页
网页去噪_研究综述_第4页
网页去噪_研究综述_第5页
资源描述:

《网页去噪_研究综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、计算机研究与发展ISSN1000-1239CN11-1777TPJournalofComputerResearchandDevelopment47(12):2025-2036,2010网页去噪:研究综述毛先领何靖闫宏飞(北京大学计算机科学与技术系北京100871)(mxl@net.pku.edu.cn)ASurveyofWebPageCleaningResearchMaoXianling,HeJing,andYanHongfei(DepartmentofComputerScienceandTechnology,PekingU

2、niversity,Beijing100871)AbstractTherapiddevelopmentoftheInternethasmadeavarietyofWebapplicationsandWebdata,whichbecomethemajorsourceofdataforlotsofresearch.Webpageincludesavarietyofcontent,suchasadvertising,navigationbar,relatedlinks,text,etc.However,fordifferentstudiesa

3、ndapplications,notallcontentisnecessary;oppositely,theunrelatedcontentwillaffecttheeffectivenessandefficiencyoftheresearchandapplications.SoWebpagecleaningisahighlightedtopicofinformationretrievalwithboomingsearchengines.Thusitisnecessarytosumupthefieldonthepagede-noise,i

4、nordertobettercarryoutin-depthstudy.Firstly,thispapergivesabriefintroductiontothenecessityofWebpagecleaninganditsrelatedconcepts.TheauthorspresentaclassificationhierarchyoftheWebpagecleaningmethods,includingthesingle-modelbasedWebpagecleaningmethodsandthemult-imodelbasedW

5、ebpagecleaningmethods.Then,thispapersummarizesallkindsofWebpagecleaningtechniquesandframeworks,includingSST,Shingle,Pagelet,DSE,etc.Thirdly,thispaperdescribestheexperimentaldatasetsandexperimentalmethodsusedinallkindsofWebpagecleaningtechniques.Finally,thispaperdiscussest

6、heexistingproblemsandthefuturedirectionsintheWebpagecleaningfield.KeywordsWebpagecleaning;datamining;Webmining;informationretrieval;WWW摘要互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,

7、且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.关键词网页去噪;数据挖掘;网络挖掘;信息检索;万维网中图法分类号TP393各种应用与研究的重要数据源之一.近年来以网页0引言数据作为对象的研究和应用大量出现,例如搜索引擎、基于Web的数据挖掘、实体抽取、知识发现等.互联网的快速发展已经使得网页数据成为目前网页数

8、据包含各种内容,如广告、导航条、相关链接、收稿日期:2009-02-13;修回日期:2010-02-25基金项目:国家自然科学基金项目(70903008,60933004);国家八六三

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。