欢迎来到天天文库
浏览记录
ID:33488855
大小:2.43 MB
页数:69页
时间:2019-02-26
《基于positive和unlabeled样本的半监督分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、扬州大学硕士学位论文基于positive和unlabeled样本的半监督分类研究姓名:范新申请学位级别:硕士专业:计算机应用技术指导教师:沈洁20090501范新:基于positive和unlabeled样本的半监督分类研究手两斐随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,女ⅡRocchioalgorithm,,thenaiveBayesianmethod(NB),supportvectormachines(SVM)。这些方
2、法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监
3、督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有Positive样本或者少量训练样本的情况下,如何通过对Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。本文主要做了以下几方面工作:1.研究贝叶斯模型标注positive和unlabeled样本,结合EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及EM极大似然估计过程中的性能计算。2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的
4、约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似2扬州人学硕十论文的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。4.结合最大熵和机器学习的技术,在BBS情感分类中的一个应用。以
5、词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建SVM分类器进行BBS文档的情感分类。关键词:文本分类,半监督,信息熵,主动学习,情感分类,机器学习范新:基丁.positive和unlabeled样本的半监督分类研究3AbstractTextcategorizationorclassificationisanimportantwayfbroptimizingthetextmanagement.Itistheautomatedassigningofthetextdocumentstopre·de6
6、nedclasses.TraditionalclassincationofmachinelearningincludessuperVisedlearningandunsuperVisedlearning.ThesuperVisedlearninghastwomajorprocesses,trainingandtest.Aftermanuallylabelingsomesetofdocumentstopre—definecategoriesorclasses,alearningalgorithmisusedtoproduceaclassifier.1ⅥanysuperVised
7、1earningtechniqueshaVebeenproposedbyresearchessofar,e.g.,theRocchioalgorithm,NaiVeBayes,supportVectormachinesandsoon.Sincelabelingisdonemanually,itislaborintensiVeandtimeconsuming.UnsuperVised1earningthemachinecouldlearngiVensimplyreceiVesinputs,butobtai
此文档下载收益归作者所有