基于粗糙集理论的文本分类算法研究_林珣.pdf

ID：52768264

大小：188.15 KB

页数：3页

时间：2020-03-30

资源描述：

《基于粗糙集理论的文本分类算法研究_林珣.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、第３８卷第１１期计算机科学Ｖｏｌ．３８Ｎｏ．１１２０１１年１１月ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＮｏｖ２０１１基于粗糙集理论的文本分类算法研究林珣１，２２３李志蜀周勇（西南财经大学经济信息工程学院成都６１００７１）１２（四川大学计算机学院成都６１００６４）（华兴职业技术学院成都６１００７１）３摘要文本分类是中文信息处理的重要研究领域。给文本分配一个或多个不同的类别，可提高文本检索和存储的处理效率。粗糙集是一种不需要任何先验信息的分类方法，通过对文本分词、过滤掉停用词之后把剩余的词语作为特征项，然后把文本用向量空间模型表示出来，将文本集转化成不带决策属性的信

2、息系统，用粗糙集理论中核心内容属性约简实现对文本的分类。实验表明，该方法的查准率和查全率都有所提高。关键词文本分类，粗糙集，约简中图法分类号ＴＰ３９１文献标识码ＡＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＡｌｇｏｒｉｔｈｍＳｔｕｄｙＢａｓｅｄｏｎＲｏｕｇｈＳｅｔＴｈｅｏｒｙ１，２２３ＬＩＮＸｕｎＬｉＺｈｉ－ｓｈｕＺＨＯＵＹｏｎｇ（ＳｃｈｏｏｌｏｆＥｃｏｎｏｍｉｃＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈｗｅｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ（ＳＷＵＦＥ），Ｃｈｅｎｇｄｕ６１００７４，Ｃｈｉｎａ）１（Ｓｃｈｏｏ

3、ｌｏｆＣｏｍｐｕｔｅｒ，ＳｉｃｈｕａｎＵｎｉｖｅｒｓｉｔｙ（ＳＣＵ），Ｃｈｅｎｇｄｕ６１００６４，Ｃｈｉｎａ）２（ＨｕａｘｉｎｇＶｏｃａｔｉｏｎａｌａｎｄＴｅｃｈｎｉｃａｌＣｏｌｌｅｇｅ，Ｃｈｅｎｇｄｕ６１００７１，Ｃｈｉｎａ）３ＡｂｓｔｒａｃｔＴｅｘｔｄａｔａｓｅｔｉｓｔｒａｎｓｆｏｒｍｅｄｔｏｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｗｉｔｈｏｕｔａｔｔｒｉｂｕｔｅｏｆｄｅｃｉｓｉｏｎｍａｋｉｎｇａｎｄｔｈｅｃｏｒｅｃｏｎｔｅｎｔｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｈａｓｂｅｅｎａｐｐｌｉｅｄｔｏｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔ

4、ｓｈｏｗｓｔｈａｔｔｈｅｐｒｅｃｉｓｉｏｎｒａｔｅａｎｄｒｅｃａｌｌｒａｔｅａｒｅｅｎｈａｎｃｅｄｉｎｔｈｉｓｍｅｔｈｏｄ；ｆｕｒｔｈｅｒｍｏｒｅ，ｉｔｄｏｅｓｎｏｔｒｅｑｕｉｒｅａｎｙａｐｒｉｏｒｉｉｎｆｏｒｍａｔｉｏｎ．ＫｅｙｗｏｒｄｓＴｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ，Ｒｏｕｇｈｓｅｔ，Ｒｅｄｕｃｔｉｏｎ文本分类（ＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ）是中文信息处理重要的Ｕ＝｛ｕ１，ｕ２，…，ｕｎ｝是具有ｎ个元素的非空集，称为对象空间，研究领域，其目标是在分析文本内容的基础上，给文本分配一Ｕ中的元素称为对象，Ａ＝｛ａ１，ａ２，…，ａｍ｝也是一个非

5、空有限个或多个比较合适的类别，从而提高文本检索、存储等应用的集，Ａ中的元素ａ称为属性，Ｖ＝∪Ｖａ，Ｖａ是属性ａ的值域，ａ∈Ａ处理效率。在常用的文本分类算法中，如支持向量机方法、Ｋｆ：Ｕ×Ａ→Ｖ是一个信息函数。近邻方法、朴素贝叶斯方法、决策树方法，每个文本都用维数从信息系统的定义可以得到：特别高的向量来描述，其向量维数通常高达上万维，即使处理（１）信息函数为每个对象的每个属性赋予一个信息值，即［１］。能力最强的计算机也难以处理ａ∈Ａ，ｘ∈Ｕ，有ｆ（ｘ，ａ）∈Ｖａ；很多学者运用粗糙集理论中的约简方法，约去不重要的（２）如果在对象集中没有重复元素，那么一个信

6、息系统就信息，生成文本的分类规则。不过，文献［２－５］在应用粗糙集是一个关系数据库。理论进行文本分类时，利用人工把文本集划分成不同的类，并定义２在信息系统Ｓ＝〈Ｕ，Ａ，Ｖ，ｆ〉中，任意属性子集且把每个文本归于不同的类，进而形成决策属性，把文本集形ｐＡ，称二元关系ｉｎｄ（Ｐ）＝｛（ｘ，ｙ）∈Ｕ×Ｕ｜ａ∈Ｐ，ｆ（ｘ，成一个决策信息系统，再利用粗糙集中的约简方法。文献［６，ａ）＝ｆ（ｙ，ａ）｝为属性子集Ｐ的不可分辨关系。如果（ｘ，ｙ）∈７］利用模糊聚类的方法把文本集聚类，把文本归属于类的结ｉｎｄ（Ｐ），那么称Ｘ和Ｙ是Ｐ不可分辨的。果作为决策属性，生成决策信

7、息系统，然后再利用粗糙集对决很显然，对于ｐＡ，不可分辨关系ｉｎｄ（Ｐ）是等价关策表进行约简。这两种方法都存在着人为地把信息系统转化系。符号Ｕ／ｉｎｄ（Ｐ）（简记为Ｕ／Ｐ）表示不可分辨关系ｉｎｄ（Ｐ）成决策系统的缺点，本文把文本集直接转化成信息系统，运用在Ｕ上导出的划分。粗糙集理论对信息系统直接约简，找到文本集特征词约简后定义３在信息系统Ｓ＝〈Ｕ，Ａ，Ｖ，ｆ〉中，属性子集Ａ１的特征词核集合，进而得到文本集的分类器。Ａ，Ａ２＝Ａ１∪｛ｒ｝，它们导出的等价类分别为：Ｕ／Ａ１＝｛Ｘ１，Ｘ２，…，Ｘｎ｝，Ｕ／Ａ２＝｛Ｙ１，Ｙ２，…，Ｙｍ｝，如果对于任意Ｘｉ∈

8、Ｕ／Ａ１１基本概念都存在Ｙ０∈Ｕ／Ａ２，使得ＸｉＹ０，则称属性ｒ为Ａ２中Ａ１不

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于粗糙集理论的文本分类算法研究_林珣.pdf

基于粗糙集理论的文本分类算法研究_林珣.pdf

相关文章

相关标签