欢迎来到天天文库
浏览记录
ID:12689105
大小:121.00 KB
页数:5页
时间:2018-07-18
《web文本分类中的几种阈值策略分析与比较》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Web文本分类中的几种阈值策略分析与比较李子久摘要本文主要针对中文网页,分析比较了文本分类中的关于类别阈值的几种策略,分别是:位置截尾法(RCut)、比例截尾法(PCut)、最优截尾法(SCut)以及改进型截尾法(RTCut),主要实验结果有:RTCut的效果最佳;PCut具有一定的复杂度,不适合在线文本处理;SCut具有一定的不稳定性;而Rcut性能最差,并且使用英文文本和中文文本评测这几种阈值策略的结果是一致的。关键词文本分类阈值分类算法特征选取中图分类号TP18文献标识码A1.引言随着web信息量的激增,人们需要自动的文本分类技术来实现对web信息资
2、源的规划及利用。目前,文本分类是信息检索和数据挖掘领域的热门话题,它通过训练一定的文本集合得到类别与未知文本的映射规则,即计算出文本与类别的相关度,再采取一定的阈值策略决定文本的类别归属。不同的分类算法以及阈值策略都会对分类的结果产生一定的影响。但是,目前文本分类的研究热点主要集中在KNN、贝叶斯、支持向量机等分类算法上,人们往往忽视了分类中阈值策略的重要性。阈值的确定是文本分类中的一个重要的步骤,文献[1]提出了4种阈值策略:位置截尾法(RCut)、比例截尾法(PCut)、最优截尾法(SCut)以及改进型截尾法(RTCut),并且针对英文文本比较了上述四
3、种阈值策略的优劣。实验结果表明:RTCut的效果最佳;PCut具有一定的复杂度,不适合在线文本处理;SCut具有一定的不稳定性;而Rcut性能最差。与英文网页不同的是,中文网页使用汉字,词与词之间没有间隔,不像英语单词之间存在空格符,所以需要在文本分类之前对中文文本进行切词处理,并且切词的准确与否将很大程度的影响分类的效果。所以,本文采用了一个中文网页数据集,对RTCut、RCut、PCut、SCut这四种阈值策略在中文网页上的性能进行评测。2.阈值策略首先介绍一下文本分类中常用的阈值策略,然后依据分类器的性能,讨论一下各个策略的优劣。2.1位置截尾法(R
4、Cut)RCut方法将文本与每个类别的相似度排序,然后将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。这种策略考虑到了分类器全局的性能,当t=1时,多用这种方法来将文本指定到单一类别当中[2]。2.2比例截尾法(PCut)PCut通过将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj个文本确定为该类别,这里(1)5(2)是类别数量,代表类别,是类别的先验概率,可以通过公式(2)计算得到。PCut考虑到了全局的分类性能,主要以x为参数,它的值可以通过
5、分类的准确程度来调整,这种确定方法类似于RCut中t值的确定方法。目前,一些分类器,如:贝叶斯、DTree、kNN和LLSF等方法采用了PCut阈值策略[3]。2.3最优截尾法(SCut)SCut针对某一类别,计算所有测试文本与该类别的相似度。根据最优化该类别分类器的性能来调整相应的阈值,然后将确定的阈值应用到新的待分类文本上。RCut和PCut阈值策略是平均所有分类器的性能,采用t或x作为参数;而SCut只优化某一类别的性能,并不保证所有类别分类结果达到最优。SCut多被用于Ripper、FOIL、Winnow、EG、kNN、LLSF和Rocchio等分
6、类算法[4]。2.4改进型截尾法(RTCut)文献[1]中提出了一种新的阈值策略,即改进型截尾法,这种方法修改了RCut和SCut的不足,并将二者结合起来确定类别的阈值,使查全率和查准率达到一定的平衡。在RTCut中,需要预先确定每个类的最优截尾阈值,新的阈值通过公式(3)计算:(3)这里,是待分类文本,是RCut中类别c的排列位置,是类别c的最优截尾阈值,而是类别c的新阈值。1.实验结果及其分析3.1实验设置为了系统的比较RCut、PCut、SCut以及RTCut这四种阈值策略,作者设计了一个中文网页分类系统,方案如下:(1)数据集中文网页数据集是实现中
7、文文本分类的前提和基础,为此,作者从中央财经网上人工获取了一个新闻网页语料库,通过中文文本分类器将各新闻信息分门别类,以用于在网上发布。该语料集包括5180个训练文本和615个测试文本,分为财政、经济、贸易、证券、科技5个大类,每个类别平均有1000个训练文本。(2)数据抽取利用netspider获取目标网页以后,需要对Html文件进行解析,按照一定的抽取规则抽取需要的数据项,系统中主要使用的抽取方法是将Html文本转换为一棵具有层次结构的HTML树,利用树结构来表示网页中的标记关系。(3)特征选取DF即文本频度,它表示在训练集中包含某个特征项t的文本数。
8、这种衡量特征项重要程度的方法基于这样一个假设:DF较小的特征项对分
此文档下载收益归作者所有