基于粗糙集的文本分类研究

基于粗糙集的文本分类研究

ID:46420216

大小:85.50 KB

页数:14页

时间:2019-11-23

基于粗糙集的文本分类研究_第1页
基于粗糙集的文本分类研究_第2页
基于粗糙集的文本分类研究_第3页
基于粗糙集的文本分类研究_第4页
基于粗糙集的文本分类研究_第5页
资源描述:

《基于粗糙集的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于粗糙集的文本分类研究摘要:文本分类是信息检索和数据挖掘等领域的研究热点。在现有的一些文本分类方法中,文本都是基于向量空间模型表示的,所形成的特征空间维数相当高,导致分类算法效率不高,分类精度不理想。粗糙集应用到文本分类可以在不影响分类精度的条件下降低特征向量的维数,并且可以得到的显式表达的分类规则。本文旨在介绍文本分类一般过程,分析将粗糙集理论应用到文本分类中关步骤,总结粗糙集与其他分类算法结合应用到文本分类的情况。关键词:文本分类;粗糙集理论;属性约简1.引言近年来随着网络和信息技术的发展,我们的工作和生活得到了极大的便利,可获得的信息量急剧增长。但我们在得到便利的

2、同时也被浩如烟海的数据所淹没,想要快速有效的找到所需的内容也越来越困难,若用传统的手工分类和处理不但耗费大量的人力和物力,而且在速度和精度方面也远远不能满足要求,这对文本的分类技术提出了迫切的要求。文本分类是信息检索和信息智能处理的基础,近年来受到了广泛的关注,很多学者对此做了深入的研究。目前基于统计方法和机器学习的方法的已经应用到文本分类,并且取得了丰硕的成果。目前在文本分类中常用的分类方法有:朴素贝叶斯(Na?veBayes)、支持向量机(SVM)、决策树、K■紧邻(KNN)、人工神经网络等。在文本分类中,广泛使用向量空间模型(VSM)来表示文本。由于自然语言的复杂特

3、性,文本的特征空间的维数会特别高,如中文字Bigram特征集的大小高达上百万,如此高维的特征空间使得一些算法无法进行或者效率非常低。为此有些系统在频率统计的基础上,使用阈值过滤掉一些特征来降低维数,但是这样会造成信息的丢失,特别是对分类重要的低频特征,从而影响了分类效果。粗糙集理论(RoughSet)是由波兰数学家Pawlak在1982年提出的一种能够处理不精确、不一致、不完整信息与知识的数学理论。粗糙集理论能够有效的分析和处理不完备信息,已经成为一种重要的信息处理技术,并在机器学习、数据挖掘、决策支持与分析等方面得到了广泛的应用。粗糙集理论是建立在分类机制的基础上的,将

4、分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分,粗糙集理论用上下近似来描述这种划分。上近似和下近似对应着确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合。通过其知识约简理论得到属性的最小子集,能够很好的近似分类,并可以显式表示分类规则。本文主要介绍文本分类的一般过程与框架,粗糙集理论的特性以及应用到文本分类的可行性,然后分析基于粗糙集理论的文本分类模型。1.文本分类一般过程与框架文本分类是基于文本的内容将未知类别标号的文本划分到一个或者多个预先给定的类别中,从而提高信息检索等应用的效率。文本分类的一般过程包括:文本的向量表示、特征降维、特征

5、加权、分类器的构建与训练、分类结果的评价与反馈等。图1是一个简单的文本分类系统的简单的框架图,其中实线表示分类器建立过程中的数据流,虚线表示分类器测试过程中的数据流。2.1文本的向量表示将文档表示成计算机能处理的形式是进行文本分类的基础工作,目前广泛使用向量空间模型VSM来表引文本,即把每个文本看作是由一系列特征词构成的集合。这部分工作主要包括处理乱码以及非文本内容、过滤停用词、合并词干、对中文文本进行分词处理等。中文分词技术目前比较有影响力的是中科院开发的汉语词法分析系统(ICTCLAS),目前已经在文本分类系统中得到广泛应用。2.2特征降维文档经过预处理以后,其特征空

6、间通常是高维空间,这会导致一些分类算法无法进行或者效率非常低,所以必须对特征空间进行降维处理。特征降维的方法主要有两种:特征选择和特征抽取。特征选择就是从原特征集中选择一个真子集作为其特征集,选择的依据是特征对分类作用的大小,通常使用一个统计量来度量,如特征频度、文本频度、特征嫡、互信息、信息增益、相关系数.Chi-square等。特征抽取则是把高维的特征空间转换成一个低维的特征空间,实现降维,常用的特征抽取方法有三类:特征聚类、主成分分析和潜在语义表引。特征降维不仅能够大大降低处理开销,而且在很多情况下可以改善分类器的分类效果。2.3特征加权为了更准确的描述特征在文本中

7、的重要性,在文本用向量表示后,需要对文本向量中的特征赋予一定的权重。这主要通过词对分类的贡献程度的分析,把分类贡献大的特征赋予高的权值,而贡献度小的或不相关的数据则赋予低的权值。采用合理特征加权方式有助于增大特征词之间的差异、凸显文本的特性和提高分类的精度。目前有很多权重函数来计算关键字在文档向量中的权重,如布尔权重函数、TF-IDF权重函数、ITC权重函数、Okapi权重函数等。2.4分类器的构建与训练选择不同分类算法决定着分类器的性能好坏,目前基于统计方法和机器学习的文本分类比较成熟,在很多文本分类系统中得到应用。另外还有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。