欢迎来到天天文库
浏览记录
ID:6353245
大小:122.00 KB
页数:7页
时间:2018-01-11
《一种基于向量空间模型的多层次分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于向量空间模型的多层次文本分类方法刘少辉董明楷张海俊李蓉史忠植(中科院计算所智能信息处理开发实验室北京100080)摘要本文对经典的向量空间模型(VSM)的词语权重计算公式进行了改进,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构,将一个文档类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类训练文档间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类。实验和实际系统表明,该方法具有较高的正确率和召回率。关键词文本分类向量空间模型信息增益
2、特征提取AnApproachofMulti-hierarchyTextClassificationBasedonVectorSpaceModelLiuShaohuiDongMingkaiZhangHaijunLiRongShiZhongzhi(LaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)AbstractThispaperimprovesontheclassicalformulaofcalcu
3、latingthetermweightinVectorSpaceModel.Furthermore,anapproachofmulti-hierarchytextclassificationbasedonVectorSpaceModelisproposed.Inthisapproach,allclassesareorganizedasatreeaccordingtosomegivenhierarchicalrelations,andallthetrainingdocumentsinaclassarecombinedintoaclass-document.Inordertoc
4、onstructtheclassmodels,itisjustonlytocompareamongtheclass-documentsattachedtothesamenodeofthesamelayer.Whenitisgoingtoclassifythedocuments,onematchingprocessishierarchicallyperformedfromtherootnodetotheleafnodesuntilacorrespondingsubclassisfound.Theexperimentandrealsystemsindicatesthatthea
5、pproachisofhighclassificationPrecisionandRecall.KeywordsTextClassification,VectorSpaceModel,InformationGain,FeatureSelection1.引言随着信息技术的发展,特别是Internet应用的普及,人们已经从信息缺乏的时代过渡到信息极为丰富的时代。如何从大量信息中迅速有效地提取出所需信息也就成为一项重要的研究课题。由于分类可以在较大程度上解决目前网上信息杂乱的现象,方便用户准确地定位所需的信息,因此分类尤其是文本分类的研究变得越来越重要[1,10]。但是,如果仅仅
6、通过人工的手段对庞大的原始文本信息进行组织分类,虽然准确率高,但需要花费相当大的时间和精力,而且分类的结果受人的主观因素的影响较大。相比而言,若能用计算机能直接对大量的文本进行自动分类,就能使人们从繁琐的手工工作中解放出来,并能极大地提高信息的利用率。文本分类的目标是在分析文本内容的基础上给文本一个或多个比较合适的类别。目前已经有许多机器学习方法和统计方法。Vapnik提出的支持向量机(SVM)[2];在文本分类研究一开始就引起关注的K近邻(KNN)分类器[3];Yang提出的一种线性最小二乘方拟合法(LLSF)[4];Apte采用决策树方法进行分类[5]。另外,神经网络(
7、NNet)和贝叶斯[6],方法也被广泛地应用到文本分类中。上述大多数方法都采用了经典的向量空间模型(VSM)。在该模型中,文档的内容被形式为多维空间中的一个点,以向量的形式给出,然后通过计算向量间的距离给定向量类别的归属。而在向量空间模型中,经典的词语权重计算方法是if.idf,针对if.idf的不足,鲁松等[7]提出了一种结合信息论中信息增益的文档表示改进算法tf.idf.ig,并通过实验验证了该方法的可行性和有效性。本文对tf.idf.ig方法进行了分析,改进了权重的计算公式,使之更加合理。另外,在此改进的基础
此文档下载收益归作者所有