基于词平台汉字编码的自动标引研究new

基于词平台汉字编码的自动标引研究new

ID:33477925

大小:254.21 KB

页数:5页

时间:2019-02-26

基于词平台汉字编码的自动标引研究new_第1页
基于词平台汉字编码的自动标引研究new_第2页
基于词平台汉字编码的自动标引研究new_第3页
基于词平台汉字编码的自动标引研究new_第4页
基于词平台汉字编码的自动标引研究new_第5页
资源描述:

《基于词平台汉字编码的自动标引研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn基于词平台汉字编码的自动标引研究焦慧,刘迁,贾惠波清华大学精密仪器与机械学系,北京(100084)Email:jiaoh04@mails.tsinghua.edu.cn摘要:自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。本文提出一种基于词平台的汉字编码方法,建立一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。关键词:自动标引,词平台,汉字编码,自动分词1.引言标引起源于

2、文献工作,是指采用一个或若干个信息标识(词语或代号)来表示或替代文[1]献内容特征的过程。标引工作在检索系统中占有重要地位,但需要花费大量的人力,一直是建立计算机检索系统的最大障碍。为了解决这个难题,已有不少人开展了计算机自动标引[2][3]的研究。1957年,美国IBM公司的H.P.Luhn发表了两篇论文,首次将计算机技术引入文献标引领域,开创了以自动标引为特征的现代标引方法。自动标引也叫做机器标引,是指直接使用计算机对信息记录进行标引。西文的词汇之间有天然的词间间隔:空格,因此自动标引较易实现,而中文词汇间并无天然分隔,比西文多了一个分词的困难,这正是中

3、文自动标引难以实现的关键所在。从当前国内情况看,汉语自动标引所采用的方法大多仍然以自动分词为基础,由于自动分词的准确性难以达到很高的水平,使得在此基础之上的自动标引的效率和质量都未能达到令人满意的效果。为了克服自动分词问题带来的困难,我们提出一种基于词平台的中文文本编码方法,建立一种新的中文计算机文档表达格式,并把这种方法应用在汉语自动标引的研究中。2.汉语自动标引研究现状自1980年以后国内开始有人涉足自动标引领域,并取得了一些初步成果。最早的自动[4][5]标引方案是从篇名标引实验开始的,后来又有了基于“词部件词典”的抽词标引实验,[6]和规则标引实验。

4、目前国内使用的自动标引方法主要有:(1)词典分词标引,即事先构造一个词典,然后根据某种方法将文献中的字符串取出来与词典对照,如相同则认为该字符串为一个词汇,然后进行标引;(2)逐字标引法,将篇名中的汉字全部抽出标引,检索时再组配起来;(3)切分标记法,切分标记法是将能够断开句子或表示汉字之间联系关系的汉字集合组成字典,并输入计算机。当原文句子被切分标记字典中的汉字分割成汉语词组或短语之后,再按一定的分解模式将它们分割成单词或专用词;(4)统计标引法,汉语统计标引法吸收了国外有关词频统计标引的思想,把一些加权思想融进汉语文献的自动标引之中;(5)语法语义分析法

5、,建立分词知识库,将语法、语义等知识分词技术应用于自动标引;(6)神经网络法,利用神经网络方法建立分词与理解系统,从而进行自动标引。以上各方法虽然在小规模的实验中都取得了较好的效果,但在大规模的实用标引中还可能遇到一些预想不到的问题,产生一定的误差。到目前为止,国内外还没有建立起一个实用的汉语自动标引系统。由于汉语信息的表达与组织所固有的特点,20几年来我国的自动标引研究主要集中在解决汉语的自动分词问题上。虽然关于自动分词已经出现了很多不错的方法,也取得了比较理想的效果,但限于汉语自身特点等原因,自动分词的准确性仍然难以达到很高的水平,使-1-http://

6、www.paper.edu.cn得在此基础之上的自动标引的质量也受影响。理想的自动标引,需要准确找出关键词,并通过对关键词的分析处理,析出主题概念,挑选出相关标引词,这样才可称作为是完全的自动[7]标引。3.基于词平台的汉字编码方法3.1总体思路目前几乎所有中文信息处理研究都是基于字平台的。而由于中文的连续书写习惯,无论分词规范多么详细,分词词表多么完善,中文自动分词中的歧义切分等问题都将始终存在,并且将严重影响着分词系统的切分精度。解决中文文本处理难题,可以另辟蹊径,从根本上突破分词这一技术瓶颈。一般的说,分词问题的产生是由于中文的连续书写习惯。而深究则发

7、现,问题的根源在于中文文本的计算机表达采用的是以字为单位的内码表示法。我们可以在不改变汉字连写传统的条件下,在计算机内采用以词为基本单元的表达方法,从而彻底抛弃分词问题。由于在汉语语言学里,“词”的确切定义尚无定论,这里所说的词,是指中文语句中有意义的,可独立运用的最小单位,即通常所说的词、词组、短语和成语等。我们对每个词进行编码,文章使用这样基于词的编码格式就可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词,使中文计算机处理与西文处在相同的起点水平,而且有了这个系统,西文对于语言处理的研究成果都可以在中文处理中应用。使用此编码方法的文档系统总

8、体结构示意图如图1所示:新的编码方输入法形成的词信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。