欢迎来到天天文库
浏览记录
ID:21910053
大小:63.50 KB
页数:9页
时间:2018-10-25
《基于本体的文本分类研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于本体的文本分类研究综述:对近年来文本分类的研究现状及新进展进行归纳总结,基于前人的研究基础,提出一个了基于本体的文本分类通用框架,将本体融入传统的基于统计和机器学习的文本分类中,分别从特征处理,分类模型和性能评测等方面进行阐述,分析了现有基于本体的分类研究所面临的挑战,并指出其今后发展趋势。 关键词:本体;文本分类;特征降维;分类模型 :TP181:A:1009-3044(2011)10-2251-05 ASurveyOnOntology-basedTextCategorization SUNNa (Dpar
2、tmentofBasicTeaching,JiangsuUniversityofScienceandTechnology,Zhangjiagang215600,China) Abstract:Theresearchactualityandneethodsinrecentyearsaresummarized,andbasedonthepriorresearchbasics,ageneralframeachinelearningtextcategorizationalgorithms,andthensomerelatedch
3、allengesaresurveyedinfeatureprocess,classifiermodelandperformanceevaluation.Andsomefuturedevelopmentsofresearcharegiven,ension;classifiermodel 信息的爆炸式增长,使人们对信息获取方法提出新的要求。文本分类作为处理和组织海量数据的有力手段,是信息检索与数据挖掘领域的核心技术,其主要任务是发现属于同一类数据对象的共同特性,构建分类模型,对未知的样本进行类别判断,自动组织和处理样本信息,
4、从而方便人们准确地定位所需知识,为实现商务智能提供重要技术支持。 现有文本分类方法可分为三大类:基于知识工程的分类,基于统计和机器学习的分类和基于本体库的分类。基于知识工程的分类方法需要领域专家用形式化语言归纳分类所需要的知识和规则,从而构建分类模型。典型应用是卡内基集团为路透社开发的Construe系统,在Reuters部分语料库上的分类效果较好,平均准确率和召回率都可达到90%,但应用到其他领域会耗费大量的人力和物力。目前基于统计和机器学习的方法是文本分类的主流,如Rocchio算法[1],朴素贝叶斯[2],k近邻[
5、3],支持向量机[4],神经X络[5]等,这些分类模型实现起来比较简单,效率较高,它们更注重分类器模型的自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例[6]。其分类过程包括训练过程和分类过程两大部分如图1所示[7]。 传统的基于统计和机器学习的分类方法,需要大量的训练样本进行训练构成分类模型,如果分类的类别发生改变,需要重新搜集大量的训练样本集训练分类模型,费时费力,无法满足用户需求。本体作为知识组织和知识表示的一种手段,具有良好的概念
6、层次结构,在理论上具备很多的优势和潜在的功能,能够提供较丰富的语义信息。将本体的概念引入到文本挖掘领域的应用层面上,为人们实现分类提供一种新思路。基于本体的分类方法无需训练样本,可以通过本体获得语义信息并结合文本分类的关键技术实现对文本的自动分类,近年来成为文本分类领域的研究热点。 1基于本体的文本分类通用模型 在认真分析传统的分类方法和现有的基于本体库的分类方法的基础上,本文提出一个文本分类的通用框架,是对文献[8]工作的一个扩展,如图2所示,其分类过程共包括预处理模块,本体模块和分类模块等三个部分。 1.1预处理
7、模块 预处理模块由待处理的文本库,文本向量表示和文本特征处理三部分组成。文本按结构可划分三种:无结构的纯文本(*.txt),半结构化的文本(*.)和结构化文本(.xml)。按文本的篇幅可划分为长文本和短文本。无论是什么类型的待分类文本,首先都要进行预处理操作,包括分词、去停用词、词根还原等,其目的是去掉对分类不起作用的噪音数据。然后从预处理后的文本中提取关键词,构成关键词词典。关键词词典的作用有两个:一是计算关键词的权重,将其表示为机器可理解的文本向量。二是利用关键词构建和扩充本体库。待分类文本集的篇幅不同,其选择的特征
8、处理过程也不同。长文本预处理后得到的文本表示是高维稀疏的特征向量,需要选择合适算法对向量进行特征降维,去掉噪音数据,留下对文本分类有较大贡献的特征数据。对于广告标语、新闻标题等短文本进行预处理后得到低维特征向量,其中包含的索引项缺少可利用的信息,可通过从本体库中获取对分类有价值的关键词,为向量添加额外的
此文档下载收益归作者所有