基于半监督的网页分类

基于半监督的网页分类

ID:36671845

大小:985.57 KB

页数:60页

时间:2019-05-13

基于半监督的网页分类_第1页
基于半监督的网页分类_第2页
基于半监督的网页分类_第3页
基于半监督的网页分类_第4页
基于半监督的网页分类_第5页
资源描述:

《基于半监督的网页分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于半监督的网页分类SEMI-SUPERVISEDWEBPAGECLASSIFICATION张焜哈尔滨工业大学2012年12月国内图书分类号:TP391.3学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于半监督的网页分类硕士研究生:张焜导师:陈清财教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2012年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.3UDC:621.3DissertationfortheMasterDegreeinEngineeringSE

2、MI-SUPERVISEDWEBPAGECLASSIFICATIONCandidate:KunZhangSupervisor:Prof.QingcaiChenAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScience&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大

3、学工学硕士学位论文摘要网络文本信息飞速增长,对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求,然而,传统的全监督学习分类器要想有好的分类效果,首先需要人工标注数据,训练好模型之后,才可以分类。在海量数据面前,标注成本极高,用户标注不一致,而数据采集和存储技术却一直在飞速发展,这给本文的设想提供了技术基础。真实网络文本中通常存在大量未标记的数据,仅有少量现成的已标记数据,如果我们假设大量未标记数据与少量已标记数据是服从相同分布的,二者结合之后构建一个质量与数量都满足需求的训练数据集,那么最终训练出的分类器的分类效果将会和大量标记数据训练好的

4、全监督分类器相当。本文尝试了主流的基于半监督学习的分类器,分类数据直接使用了最真实的网络数据,除了正文提取,简单的语言筛选,广告、垃圾文本过滤,最大限度地保留了原始的网络内容。为了提高分类效果,在尝试了几种主要的特征选择和特征抽取方法的基础上,还引入了半监督的宏特征。在分类器的选择方面,本文尝试了三类基于不同原理的分类器:传统的EM,基于直推学习的TSVM和基于深度架构的DBN。在特征方面,本文在传统特征方法上做了实验,为了提高TSVM的精度,本文首次将新的基于宏特征的方法与传统特征结合在半监督分类器上做了尝试,并取得了显著的性能提升。本文用不同类型的分类器,在

5、标准数据集和网页数据集上进行了对照实验,达到了预期的自动分类海量网页的效果,在经过一系列预处理之后,可以用降低一个数量级的标记数据,达到与全监督分类算法相近的分类精度。关键词:文本分类;网页分类;半监督;特征选择;特征抽取I哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofInternet,thenumberofwebpagesgrowsrapidly.It’sanurgentdemandtoclassifythemasswebtextandtofindwhatwereallyneedfromit.However,thetra

6、ditionalsupervisedclassifiersneedlotsofmanualtagging.Basedonenoughlabeleddatawecantrainthemodels.Facingwithmassiveinformationontheweb,thecostoflabelingisveryhighthatwecannotafford,besides,usersusuallyholddifferingviewsonthesameproblem.Howtoobtaintheinformationwhichweneedfastandaccura

7、telybecomeseasier.Besides,withtherapiddevelopmentofwebdatacollectingandmining,moreandmoredatacanbeusedtosolvetheproblemscausedbymassivenetworkinformation.Theyareallbasictechnologyweneed.Intherealworld,wecaneasilyfindrawdatafromhumaneditorswhilewithoutanyhumanlabeling.Onlyafewofthemar

8、elabeled.Ifw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。