一个基于概念的中文文本分类模型

一个基于概念的中文文本分类模型

ID:12282003

大小:56.00 KB

页数:5页

时间:2018-07-16

一个基于概念的中文文本分类模型_第1页
一个基于概念的中文文本分类模型_第2页
一个基于概念的中文文本分类模型_第3页
一个基于概念的中文文本分类模型_第4页
一个基于概念的中文文本分类模型_第5页
资源描述:

《一个基于概念的中文文本分类模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、均是精品,欢迎下载学习!!!一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门361005摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进

2、行管理一个很常见的方法就是对它们系统地进行分类。显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。一般而言,文本分类方法可分为两个类型:基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。最常见的方法是基于向量空间模型(VectorSpaceModule)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,

3、通过计算向量之间的距离,来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。这种方法有了很多的应用,但是其不足之处也是显而易见的:1.正确率一般只能达到80%,且很难进一步向上发展2.对于不同体材的文本,则其归类正确率更是大打折扣。基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。主要可以分为以下三类:1.基于词的归类技术文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽

4、取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。2.基于知识的归类技术基于知识库的归类技术有一个明确的知识库,知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造知识库,且建造的知识库领域性极强,移植非常困难。最近的研究工作表明,在一定的领域内,基于知识库的系统能够进行快速准确的分类。3.基于概念的归类技术基于概念的归类技术是一种介于词的分类技术和基于知识的归类技术之间的技术,它只抽取那些对文本分类有用的概念,它抽取短语周围的文本和潜在的语义概念进行文

5、本类别的确定。基于概念的归类技术并不需要理解全文的语义,这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个较好的方法。本文提出了一个中文文本自动分类模型,它是基于概念的归类技术,建立在《知网》基础之上的,从文章中抽取出关键词,利用词产生的概念对全文进行分析,然后根据概念的类别综合进行分类。二、知网简介 《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库。《知网》认为世界上的一切事件都在特定的时间和空间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常通过其属性来体现。《知网》概括了

6、八百多个事件义原,通过义原的组合来标注各种各样的单纯的或复杂的概念,以及各个概念与概念之间、概念的属性与属性之间的关系。相对来说,新词虽然层出不穷,但义原的增加却极少,显然,从理论上说,处理好了这八百多个义原就可以实现对文本的分类。《知网》使用义原的组合来标注各种各样的单纯或复杂的概念,其标注时按其特征的重要性从大到小顺序来定义概念,但在文本分类的过程中,我们发现许多概念的主要特征大部分无法定义其类别,而且其特性倒不是我们所关心的。所以我们定义一个概念的第一个能够归类的特性为首分特性,每一个能够归类的特性称为可分特性。显然,首分特性是最重要的可分特性。对在我们的文本分类过

7、程当中主要是利用概念的首分特性和可分特性来进行分类。《知网》作为一个知识系统,实副其名是一个网而不是树。它所要反映的是概念的共性和个性,知网还着力要反映概念之间和概念的属性之间的各种关系。三、系统的设计与实现 在本模型中,概念的生成是基于对词的理解之上的,而知网作为一个常识数据库,对概念的理解已经形成电子文档分词与标注关键词抽取知网概念排岐存档文本归类分词与标注:对电子文档进行词条的切分,并对所切分的词进行词性标性。关键词抽取:从分词后的词条中抽取出最能反映文档的内容的词语。概念排岐:对抽取出的关键词所表示的概念进行排岐。文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。