一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf

一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf

ID:52435581

大小:1.92 MB

页数:8页

时间:2020-03-27

一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf_第1页
一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf_第2页
一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf_第3页
一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf_第4页
一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf_第5页
资源描述:

《一种基于向量空间模型的多层次文本分类方法_刘少辉.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文信息学报第16卷第3期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.16No.3一种基于向量空间模型的多层次文本分类方法刘少辉董明楷张海俊李蓉史忠植(中国科学院计算技术研究所智能信息处理重点实验室北京100080)摘要:本文研究和改进了经典的向量空间模型(VSM)的词语权重计算方法,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时

2、,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。实验和实际系统表明,该方法具有较高的正确率和召回率。关键词:文本分类;向量空间模型;信息增益;特征提取中图分类号:TP391.1AnApproachofMultihierarchyTextClassificationBasedonVectorSpaceModelLIUShaohuiDONGMingkaiZHANGHaijunLIRongSHIZhongzhi(LaboratoryofIntelligentInformationProcessing,InstituteofComputing

3、Technology,ChineseAcademyofSciencesBeijing100080)Abstract:ThispaperdoesresearchandimprovesontheclassicalapproachofcalculatingthetermweightinVectorSpaceModel.Furthermore,anapproachofmultihierarchytextclassificationbasedonVectorSpaceModelisproposed.Inthisapproach,allclassesareorganizedas

4、atreeaccordingtosomegivenhierarchicalrelations,andallthetrainingdocumentsinaclassarecombinedintoaclassdocument.Inordertoconstructtheclassmodels,itisjustonlytocompareamongtheclassdocumentsattachedtothesamenodeofthesamelayer.Whenitisgoingtoclassifythedocuments,onematchingprocessishierarch

5、icallyperformedfromtherootnodetotheleafnodesuntilacorrespondingsubclassisfound.TheexperimentandrealsystemsindicatethattheapproachisofhighclassificationPrecisionandRecall.Keywords:TextClassification;VectorSpaceModel;InformationGain;FeatureSelection一、引言随着信息技术的发展,特别是Internet应用的普及,人们已经从信息缺乏的时代

6、过渡到信息极为丰富的时代。如何从大量信息中迅速有效地提取出所需信息也就成为一项重要的研究课题。由于分类可以在较大程度上解决目前网上信息杂乱的现象,方便用户准确地定位所需[1,11]的信息,因此分类尤其是文本分类的研究变得越来越重要。文本分类的目标是在分析文本内容的基础上给文本分配一个或多个比较合适的类别。目收稿日期:2001-11-8本文得到国家自然科学基金(60173017)和北京自然科学基金(4011003)支持作者刘少辉,男,1977年生,博士研究生,主要研究方向为数据挖掘、信息检索.董明楷,男,1973年生,博士研究生,主要研究方向为智能主体、描述逻辑.张海俊,男

7、,1980年生,硕士研究生,主要研究方向为智能主体、软件工程.李蓉,女,1973年生,硕士研究生,主要研究方向为神经网络.史忠植,男,1941年生,研究员,博士生导师,主要研究方向为人工智能、知识工程.8[2]前已经有许多机器学习方法应用到该领域:Vapnik提出的支持向量机(SVM);在文本分类[3]研究一开始就引起关注的K近邻(KNN)分类器;Yang提出的一种线性最小二乘方拟合法[4][5][6](LLSF);Apte采用决策树方法进行分类。另外,神经网络(Nnet)和贝叶斯方法也被广泛地应用到文本分类中。上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。