资源描述:
《转汉语分词的主要技术及其应用展望》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、转汉语分词的主要技术及其应用展望1转汉语分词的主要技术及其应用展望12011-05-1309:41一、汉语自动分词的提出词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于
2、文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。因而人工分词的同一性得不到保证。北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带
3、来一大障碍。其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。第四,汉语构词具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。汉语词自动切分是计算机中文
4、信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一"瓶颈"的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键,长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。二、现有的分词方法为了克服汉语词计算机自动切分这一难题,许多年来,大量的学者都加入了这一领域的研究,使汉语
5、自动分词取得了丰硕的研究成果。近年来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法,归纳起来有最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想--回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种。归纳起来,目前国内
6、公开报道过的分词系统采用的分词方法主要有三种类型机械分词法。机械分词法主要有最大匹配法(MM法、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。人工智能法。又称理解分词法,人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式一种是基于心理学的符号处理方法。模拟人脑的
7、功能,像专家系统。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。这些方法又大体上可分为两类一类是基于规则的,大多数中文分词方法都属此类;一类是基于语料库的,如神经网络分词法部分的属于此类。基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信
8、道噪声模型,最后都归结为计算词频的统计信息,串频和互信息是词频的另一种表现形式。但遗憾的是自然语言远不是一个经过事先精心规划的系统,难以用一套完整的规则去准确地预测正式汉语文本中所出现的各种变异。1.最大匹