半监督网页分类研究

半监督网页分类研究

ID:33171015

大小:1.95 MB

页数:58页

时间:2019-02-21

半监督网页分类研究_第1页
半监督网页分类研究_第2页
半监督网页分类研究_第3页
半监督网页分类研究_第4页
半监督网页分类研究_第5页
资源描述:

《半监督网页分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、CIassifiedIndex:TPl81U.D.C:681SouthwestUnivetSityOfScienceandTechnoIogyMasterDegreeThesiSSemi—SupervisedWebCategoryResearchGrade:Candidate:AcademicDegreeAppIiedfor。SpeciaIity:Supervisor:2008HeSongIinBasterComputerAppIiedTechnoIogyProf.ZhangHuiApriI4th,2011独创性声明iI!ll!ll!

2、IIlIllllllfllrlllrllIrllllrlnl;{Y1998198本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:矗易掸日期:庐矿//.矿f.矽莎关于论文使用和授权的说明本人完全了解西南科技大学有关保留、使用学位论文的规定,即:学校有权保留学位论文的复印件

3、,允许该论文被查阅和借阅:学校可以公布该论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的学位论文在解密后应遵守此规定)签名:据肚删龇]协日期:kh“飞r西南科技大学硕士研究生毕业论文第l页摘要在传统的网页分类中,通常采用有监督学习,通过对大量有标记(1abeled)的网页训练集进行学习来预测未标记(unlabeled)网页的类别。但是,获取大量有标记的实例需要花费大量的人力物力,而收集大量的未标记实例已相当容易。半监督学习就是在只有少量有标记数据的情况下,利用大量未标记数据来提高学习效果的。本文详细介绍了我们在

4、半监督学习研究领域开展的两方面的工作:1.我们依据协同训练的特点及其衍生算法Tri—Training使片j集成学习的优点,在此基础上,进一步研究将集成学习和半监督学习结合的方法,提出了基于袋装的半监督分类算法,并使用了熵来筛选未标记数据,使用强数据以提升了分类的精度;2.我们进一步研究基于图的方法,图方法理论基础比较健全,很好的描述了数据的特征,但是其计算量很大并且图方法本身是直推式的,不具有归纳性。针对这些问题,我们重点研究了类别传播算法,最后结合聚类分析,先对未标记数据进行局部聚类,选择可信度高的进行标记,减少未标记数据量以加快计

5、算速度。在归纳方面,则保持图模型结构不改变的情况下,使用聚类的思想,对新来的数据进行分类,减少图运算,提高图的复用性和效率。上述算法,我们在Weka平台上,使用UCI数据集进行测试,取得比较好的效果。最后,使用我们提出的算法在搜狐新闻数据(SougouCS)进行了真实网页数据的测试,实验结果表明,我们的算法在精度和效率上有明显的改进和提高。。关键词:半监督学习集成学习袋装基于图的方法类别传播●西南科技大学硕士研究生毕业论文第1l页kbstractIntraditionalwebcategory,weusuallyusesupervis

6、edlearningmethod,learningwithalotoflabeledwebpagestrainingset,toclassifytheunlabeledpages.But,togetlotsoflabeleddatawillcostmuchhumanitiesandmaterials;however'it’Seasytocollectnumerousunlabeleddata.Semi-supervisedlearningwithonlyalittlelabeleddatamakesuseofnumerousunlab

7、eleddatatoimprovelearning.Inthispaper,weintroducedourresearchworkinthisfieldindetail,whichcanbedividedintotwoparts:1.AccordingtotheadvantageofCo-TrainingandTri—Trainingwhichexploitensemblelearning,wecombineensemblelearningandsemi—supervisedlearningfurther,andproposedbag

8、ging-basedsemi—supervisedclassification,whichchoosesstrongevidencewithentropyfromunlabeledsettoimproveclassifi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。