用于中文信息自动分类的知识库的构建

用于中文信息自动分类的知识库的构建

ID:5508947

大小:29.50 KB

页数:3页

时间:2017-12-16

用于中文信息自动分类的知识库的构建_第1页
用于中文信息自动分类的知识库的构建_第2页
用于中文信息自动分类的知识库的构建_第3页
资源描述:

《用于中文信息自动分类的知识库的构建》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、用于中文信息自动分类的知识库的构建  1、前言随着计算机、网络技术的迅速发展,为了实现网络信息处理的智能化、自动化和精细化,以词表、分类表、语言形式出现的各种情报检索语言加快了与标记语言、超文本技术和其他软件技术的融合,出现了新一代的情报检索语言与自然语言的结合体——知识组织系统。知识组织系统是指各种对人类知识结构进行表达和有组织阐述的语义工具,主要包括分类法、主题词表、语义网络、主题图、知识本体等。分类法和主题词表在信息资源的加工组织中发挥着重要的作用,而语义网络、主题图、知识本体则是针对第二代语义Web提出的知识组织系统。本文所讨论的《中国图书馆分类法》(以下简称《中图法》)知

2、识库也是一种知识组织系统,或称为用于自动标引和分类的专家系统,它建立在《中图法》的基础上,通过机器统计归纳出众多人工标引记录中所凝结的标引经验,建立分类号、主题词、关键词之间的概念对应关系,从而实现对文献的自动标引和自动分类,进而实现概念检索。    2、《中图法》知识库构建的原理分类检索语言、主题检索语言和自然语言是3种不同的情报语言系统,标识和组织方式各不相同,但在本质上是一样的,都是一种主题概念标识系统,分类号、主题词、关键词都可用来表示某一文献信息的主题概念。因此,这三者之间存在着隐含的概念对应关系,即兼容关系。国内大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着

3、大量的人工标引记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据。我们可以通过对这些标引数据的计算机处理,挖掘出分类号—主题词串—关键词串之间的概念对应关系,实现三者之间的兼容互换。在此基础上,构建一个自动标引和自动分类用知识库,实现中文文献的自然语言标引、主题规范、自动分类及概念检索。不管是分类检索语言还是主题检索语言,乃至任何知识组织系统,都使用了分类方法。而《中图法》是一个建立在知识分类基础上、可用于信息组织的概念语义网络,因此,我们选择《中图法》作为本知识库的主干体系。(1)《中图法》是我国自编的一部大型综合性图书分类法,可用于图书资料、音像资料和其他类型

4、信息的分类标引和检索。它在国内有着最广泛的影响和最众多的用户,是早已被大家公认的“不是标准”的标准。(2)《中图法》自首次出版以来,在30多年里经过图书情报领域和其他各专业领域专家多次修订改版,具有广泛的学科覆盖面、完善的知识组织结构,在等级体系的基础上加入了分面组配的功能,能够适应现代文献信息分类自动化的需求。《中图法》已建成了用最详细的元数据格式——MARC描述的《中图法》数据库,2000年出版了电子版,而且正在向网络版发展。(3)目前国内几大文献数据库的分类标引均以《中图法》为分类依据,选择《中图法》作为知识库的组织框架,可以直接利用这些现已达到数百万、上千万条的标引记录,从

5、而免去类号转换的麻烦。(4)《中图法》从90年代起,已经实现了与国内规模最大、用户最多的叙词表——《汉语主题词表》(以下简称《汉表》)的兼容互换,研制并出版了国内最大的分类主题一体化词表——《中国分类主题词表》(简称《中分表》)。近几年还完成了《中分表》电子版的开发,并在新版中大幅度地增加了入口词,加快了检索语言的自然语言化。这一切为分类检索语言、主题检索语言、自然语言三者在标引、检索中的互操作奠定了基础。(5)《中图法》的网络信息分类组织的可行性得到了大多数专家的认同,它也正在采取分面化、增加自然语言接口、增加超文本链接等多种措施,以适应网络信息组织的发展需求。总之,在构建中文文

6、献自动标引和自动分类系统用知识库时,选择《中图法》作为知识库的主干,具有明显的优势。    3、《中图法》知识库与《中图法》体系的结构比较《中图法》与其他的传统分类法一样,包括分类表(含附表)和类目索引两大部分。随着情报检索语言向分类主题一体化方向发展,《中图法》与《汉表》融为一体。1993年,《中图法》编委会在《中图法》与《汉表》对应的基础上编制出版了分类主题一体化词表——《中分表》,从而使《中图法》的体系日臻完善。《中图法》体系如图1所示。《中图法》的结构《中图法》体系在文献手工标引时代做出了卓著的贡献,但在应用于网络信息和自动化时却暴露出如下弊端:(1)无论是分类表还是对应的

7、主题词表或分类主题一体化的《中分表》都属于受控语言,自然语言人口少,用户使用不便。(2)《中图法》及其系统产品的着眼点是便于图书情报人员的标引和检索,而不是着眼于网络时代的普通用户的直接使用,因而过于强调词汇控制,忽略了检索语言与自然语言的结合。(3)人工编制,定期修订,更新慢,大量新词、新主题、新类不能及时收录。(4)受印刷版的限制,分类表、词表的规模偏小,类目和词汇数量少,难以满足计算机自动处理的需要。由于现有《中图法》体系存在着上述弊端,所以有必要引进新的计算机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。