欢迎来到天天文库
浏览记录
ID:33870262
大小:191.45 KB
页数:7页
时间:2019-02-28
《中文文档自动分类系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中文信息学报第13卷第3期JOURNALOFCHINESEINFORMATIONPROCESSINGVo1.13N03中文文档自动分类系统的设计与实现一岁邹涛王继堕黄源张福炎歹f南京大学多媒体计算机研究所软件新技术国家重点实验室南京21~93。摘要文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理.如文本分类模型、特征提取、词典构造等。关键词文本分类分类模型文托美.尘M一一、生引言戋橱,囟功芙惫随着信息技术的发展,特别是lnternet应用的普及,人们已经
2、从信息缺乏的时代过渡到了信息极大丰富的时代,如何从大量信息中迅速有效地提取出所需信息也就成为了一项重要的研究课题⋯,文本信息的自动分类是其中一个重要研究方面。文档分类是指根据文档的内容或属性,将大量的文档归到一个或多个类别的过程。文档分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造方法有多种,主要有统计方法、机器学习方法、神经网络方法等。国外对文档分类技术的研究已经开展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的应用,其中较为成功的系统有麻省理工学院(M
3、IT)为白宫开发的邮件分类系统、卡内基集团为路透社开发的Co~tme系统等J。在国内,文档自动分类技术的研究起步较晚,且由于中文与英文存在较大的差异,不能照搬国外的研究成果,因此有必要研究并开发出实用化的中文文档自动分类系统。本文介绍了一个采用向量空问模型(VectorSpaceModel,VSM)、针对中文技术文档的自动分类系统CTDCS(ChineseTechnicaiDocumentsClassificationSystem)的设计与实现。CFDCS作为江苏省科委95科技攻关项目“面向电子报刊电子图书馆的网络出版发行系统”的一个子系统.经过
4、近半年的试运行和多次的修正,已取得了较为理想的分类效果。二、系统结构2.1模块划分CTDCS系统是为了实现对大量中文技术资料进行实时地自动分类而设计开发的。CTI3CS系统采用了向量空间模型和基于统计的特征提取技术,能够根据文档的具体内容将其分本文于1998年l2月2日收到本文研究得到江办省科委九五科技攻关项目“面向电子报刊电子图书馆的网络出版发行系统”的资助配到一个或多个类别中,以便于用户对资料的浏览与查询。系统主要由语料库维护、词典维护、特征提取、文档分类和系统设置等五部分组成(见图1)。图中各模块的功能如下:1C-PP~~系统结构1语料库维
5、护模块负责管理用于算法学习和特征提取的训练文档集,主要功能有文档类的建立、删除和训练文档的添加、删除、浏览、索引文档集按照训练文档所属类别以目录树的结构存储,其中语料库初始化模块用于语料库初建时的文档集目录结构到索引的反向重建。2词典维护模块负责管理用于词条切分和词频统计的主词典、同义词词典和蕴含词词典,主要功能有词典的建立和条的添加、删除、修改。其中词典导入模块能够从外部文件中读入词条并添加到指定的词典中,用于进行词典词条的批量添加3特征提取模块特征提取模块是系统的核心模块,能够利用系统词典对训练文档进行词条切分和词频统计,并根据词频分布提取出
6、代表文档娄的特征项集及相应权值.生成特征向量表特征提取模块并能够根据结果反馈,向用户提供特征向量表的自动或半自动修正功能4.文档分类模块根据词频分布,提取出待分类文档的代表向量,并计算与各文档类特征向量的相似度,如符合一定的阅值条件则将其归属到相应的类别中。系统提供了自动执行和手动执行两种运行方式:自动执行能够根据系统设置,定时对输入目录中的待分类文挡进行批量分类处理;手动执行则需要由用日。圉户选定待分类文档,逐一处理。语料库词典5.系统设置模块系统设置模块向用户提供系统参数(如滤频系数、输入输出目录等)的修改和设置的功能。2.2工作流程系统工作
7、流程如图2所示:●利用经过人工分类的文档建立堋练语料库;●建立切分.统讣词典;图2(rIX工作流程●利用词典词条对训练文档进行词条叼分和词频27统计,并根据词频分布生成各文档类的特征向量和初始阔值;●读入待分类文档.并提取特征向量:●计算待分文档向量与各文档类向量的相似度,根据阈值条件生成输出结果。三、主要技术问题的处理31文档表示与特征匹配文档表示是指以一定的规则和描述来表示文档或文档类,在分类时用这些规则和描述评价未知文档与给定文档类的相似程度。文档表示模型有多种,常用的有:布尔逻辑型、向量空间型、概率型以及混合型等向量空间模型(vSM)是近
8、年来应用较多且效果较好的一种模型,rD(=S系统就采用了VSM进行文档的表示与特征匹配。在VSM中.将每一文档都映射为由一组规范化正交词
此文档下载收益归作者所有