基于关键词的垃圾网页判别研究

基于关键词的垃圾网页判别研究

ID:35104809

大小:2.33 MB

页数:58页

时间:2019-03-18

基于关键词的垃圾网页判别研究_第1页
基于关键词的垃圾网页判别研究_第2页
基于关键词的垃圾网页判别研究_第3页
基于关键词的垃圾网页判别研究_第4页
基于关键词的垃圾网页判别研究_第5页
资源描述:

《基于关键词的垃圾网页判别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于关键词的垃圾网页判别研究KEYWORDBASEDGARBAGEPAGESDISCRIMINATIONRESEARCH杜明明哈尔滨工业大学2015年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.6密级:公开管理学硕士学位论文基于关键词的垃圾网页判别研究硕士研究生:杜明明导师:芦鹏宇副教授申请学位:管理学硕士学科:管理科学与工程所在单位:经济与管理学院答辩日期:2015年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:004.6DissertationfortheMasterDe

2、greeinEngineeringKEYWORDBASEDGARBAGEPAGESDISCRIMINATIONRESEARCHCandidate:DuMingmingSupervisor:AssociateProf.LuPengyuAcademicDegreeAppliedfor:MasterofManagementSpecialty:ManagementScience&EngineeringAffiliation:SchoolofManagementDateofDefense:June,2015Degree-Conferring-Institution:Harb

3、inInstituteofTechnology哈尔滨工业大学管理学硕士学位论文摘要目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网页中存在大量的无关跳转链接;网页内容杂乱无序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然语言处理和机器学习的方法进行垃圾网页的判别。语义分析需要预先建立庞大的语料库和繁琐的标注工作,机器学习的方法同样需要预先进行自然语言的处理。自然语言处理耗时比较长、处理难度较大。本研究的目的建立一系列指标来描述一个网页,

4、根据这些指标利用统计判别方法进行垃圾网页的识别,避免自然语言处理和机器学习的麻烦。本研究从网页整体维度、文本维度和链接维度三个方面分别建立一套指标来描述一个网页,使用fisher判别法、logistic回归和贝叶斯判别三种常用的统计判别方法进行指标体系判别效果的分析验证,根据判别的有效性和准确性来进行指标合理性的验证。为了验证利用统计方法进行垃圾网页的判别具有可操作性,本研究在采用计算机自动进行网页的解析工作,利用中文分词技术对网页文本进行分词处理,然后统计出各个指标的数值。关键词:统计判别;垃圾网页;指标体系;关键词I哈尔滨工业大学管理学硕士学位论文Abstra

5、ctAtpresent,thesearchenginehasbecomethemainchannelforInternetuserstoobtaininformation.Buttherearesomegarbagepagesinthesearchengine.Thesegarbagepagesnotonlyisawasteofthesearchengineresources,butalsoaffectthesearchexperienceofInternetusers.Garbagepageshavethefollowingcharacteristics:alo

6、tofirrelevantlinksjumpexistinpages;webcontentsaredisorderandcannotprovideusefulinformation;thereisSEOcheating.ThepresentresearchismainlyusingNaturalLanguageProcessingandmachinelearningmethodtodistinguishthesegarbagepages.Thesemanticanalysisrequiresalargecorpusandacomplicatedtaggingwor

7、kinadvance.Themethodofmachinelearningalsoneedstobeprocessedbythenaturallanguageprocessingtechnologyinadvance.Naturallanguageprocessingtakeslongandisdifficulttohandle.Thisresearchaimstoestablishaseriesofindicatorstodescribeawebpageanddistinguishgarbagepagesbystatisticaldiscriminationme

8、thoda

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。