欢迎来到天天文库
浏览记录
ID:32057368
大小:2.29 MB
页数:65页
时间:2019-01-31
《基于positive和unlabeled样本的半监督分类分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、4扬州人学硕十论文informationentropy,wedeterminethefeature’sdistribution,andwhetherthedocumentissuitableforthisclassincation.TheentropyValuesshowtherelatiVediscriminatorypowerofthewordfeatures.Thebiggerafeature’sentropyis,themorelikelyithasthesimilardistributionwiththetrainingexamples.3.Proposetwokindsofact
2、iVelearningstrategies,whichareintegratedwithourclassincation.Todeterminingwhetheradocumentinunlabeledexamplesissuitableforthisclassincation.Whichdocumentsinunlabeledexamplescouldbeusedasthenewtrainingdocuments?4.AnoVelefficientmethodf.orBBSsentimentclassificationispresentedbyusingmaximumentropymode
3、l.thesemantictendencyidentincationwasstudied.Weidentinedwhetherthewordshadsemantictendencybyusingmaximumentropymodel.ThewordswithpolaritywereselectedasfeaturesandourSupportVectorMachineclassinerwasbuilt.Keywords:textclassification,semi-superVised,information-entropy,actiVe-1earning,sentimentclassin
4、cation,machinelearning范新:基丁positive和unlabeled样本的半监督分类研究69扬州大学学位论文原创性声明和版权使用授权书学位论文原创性声明本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体己经发表的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名:范勒I签字日期:)口o'年6月g日学位论文版权使用授权书本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文的复印件和电子文档
5、,允许论文被查阅和借阅。本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。学位论文作者签名:范新I签字日期:上od0年∥月孑日导师签名:纱签字日期:六,1年易月彩日范新:基丁positive和unlabeled样本的半监督分类研究51绪论随着信息技术尤其是Internet相关技术的发展与成熟,Internet、企业内部网和电子图书馆中可获得的信息越来越多并且还在不断增长。面对海量信息,人们已经不能简单地靠人工来
6、处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。自动分类研究始于50年代末,H.P.Luhn在这一领域进行了开创性的研究。1961年,Maron发表了有关自动分类的第一篇论文⋯,随后许多著名的情报学家Sparck、Salton等都在这一领域进行了卓有成效的研究心咱3。到80年代末之前,有效的建立自动分类系统的方法大多是知识工程的方法,即利用专家规则来进行分类;到了90年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容对文本分门别类,从而更好地帮助人们组织
7、文本、挖掘文本信息,因而得到同益广泛的关注成为信息领域最重要的研究方向之一。1.1选题背景随着信息技术的发展,互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类(textcategorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(1abel)集合下,根据文本内容判定它的类别。
此文档下载收益归作者所有