一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf

一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf

ID:52768312

大小:215.42 KB

页数:7页

时间:2020-03-30

一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf_第1页
一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf_第2页
一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf_第3页
一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf_第4页
一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf_第5页
资源描述:

《一种基于粗糙集的文本分类规则抽取方法_孟庆春.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第33卷第6期青岛海洋大学学报33(6):943~9492003年11月JOURNALOFOCEANUNIVERSITYOFQINGDAONov.,2003X一种基于粗糙集的文本分类规则抽取方法1,21111孟庆春王汉萍魏天滨葛艳高云(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘要:随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的

2、知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。关键词:文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号:TP391.6文章编号:1001-1862(2003)06-943-070引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet网可以看作1个庞大的、异构的、互连的动态文本数据库。但是web上的信息只有很小的一部分是相关的,一般来说99%的web信息对于99%的用户是无用的。因此对于文本自动分类技术的研究是1项非常有价值的课题。利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所

3、需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技[1]术。基于向量比较的文本分类技术,如:简单中心向量比较算法、K近邻算法、支持向量机算法等等。首先将文本用1个特征矢量(V(d)=(t1,X1(d);⋯;tn,Xn(d)),其中ti为词条项,Xi(d)为ti在d中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。根据训练文档的特征,利用统计的方法确定每个类别中心的特征矢量

4、。在分类阶段,计算待分类文档的特征矢量与每个类别中心特征矢量的相似度,选取相似度最大的类别作为该文本的类别,向量的相似度通常是计算2个向量之间的夹角余弦值。基于规则的文本分类技术,将文本的关键词向量作为规则的前提条件,文件所属的类别用作规则决策,在训练阶段针对训练文本提取出分类规则,然后利用这些规则对新文本进行分类验证,最后输出符合分类要求的规则。但是目前多数系统的规则是人工设置的,很多典型的规则库只是简单的测试特定关键词是否在文件中出现。例如,Usener客户可以用kill-file通过检X山东省自然科学基金(Y2002G18)资助收稿日期:2003-04-08,修订日期:2003-08-2

5、9孟庆春,男,1958年出生,教授,博士。E-mail:mengqc@mail.ouc.edu.cn944青岛海洋大学学报2003年查邮件“From”域中的人名实现对邮件的过滤。[2]目前来看,对文本这样的高维数据进行分类是1个很困难的事情。在多数IR(InformationRetrieval)系统中,每个文本都用维数特别高的向量来描述,文本的向量维数通常高达上万维,虽然它表达了所有问题,但甚至处理能力最强的计算机也难于对之进行处理。而且,向量之间的比较计算还将进一步增大文本分类的计算量。本文提出基于Rough集理论的分类算法,给定文件全集和1个已经分类的文本集合,从已分类的文本集中,得出区别

6、文本类别最小的关键词集合,利用知识约简理论提取出文本分类的规则,通过将新文本的特征项值与规则相比较来确定其类别。这样的关键词集合(分类的前提条件)是能够为人所理解的,并且基于规则的文本分类技术不像基于向量比较的分类器那样,每个向量的维数必须等于关键词空间的维数。简化了知识系统的处理过程。1粗糙集理论简介[3]粗糙集理论是波兰华沙理工大学Pawlak教授于1982年提出的。Rough集的研究对象是1个由多值属性集合描述的对象集合。Rough集方法可以解决重要的分类问题,去除冗余属性,进行属性的约简,还可以用决策规则集合的形式表示最重要属性和特定分类之间的所有重要关系。目前已经在知识获取、规则提取

7、、机器学习、决策分析、模式识别、数据挖掘等领域获得了广泛的应用。本文将这1理论应用到文本分类的训练阶段,用粗糙集的属性约简算法实现规则的提取。下面简述一下粗糙集的基本概念:1.1不可分辨关系与决策表的定义假如论域里的2个元素具有相同的信息,则它们是不可区分的,显然这是1种等价关系:定义1不可分辨关系对于某个属性子集BAR=U×U,如果2IND(B)={(x,y)û(x,y)∈U,Pb∈B(b(x)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。