汉语分析技术入门

汉语分析技术入门

ID:47892062

大小:601.60 KB

页数:25页

时间:2019-10-19

汉语分析技术入门_第1页
汉语分析技术入门_第2页
汉语分析技术入门_第3页
汉语分析技术入门_第4页
汉语分析技术入门_第5页
资源描述:

《汉语分析技术入门》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一届学生计算语言学研讨会(SWCL2002)专题讲座汉语词法分析和句法分析技术综述刘群北京人学计算语言学研究所中国科学院计算技术研究所liuqun@ict.ac.cn引言本文主要介绍一些常用的汉语分析技术。所谓语言的分析,就是将一个句子分解成一些小的组成部分(词、短语等等)并了解这些部分Z间的关系,从而帮助我们把握这个句子的意义。语言的研究,一般而言存在四个层而:词法层、句法层、语义层和语用层。同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析和语用分析。木文主要介绍汉语的词法分析和句法

2、分析技术。这两种技术是汉语分析技术的基础,而且已经发展得比较成熟。文中也会少量提及语义层而和语用层而的一些问题,但不会做深入的探讨。汉语是一种孤立语(又称分析语),与作为曲折语和黏着语的其他一些语言相比,汉语在语法上有一些特点,仅仅从形式上看,这种特点主要体现在以下儿个方面:1.汉语的基本构成单位是汉字而不是字母。常用汉字就有3000多个(GB2312-级汉字),全部汉字达数万之多(UNICODE编码收录汉字20000多);2.汉语的词与词之间没有空格分开,也可以说,从形式上看,汉语小没有“词”这个

3、单位;3.汉语词没冇形态上的变化(或者说形态变化非常弱),同一个词在句了中充当不同语法功能时,形式是完全相同的;4.汉语句子没有形式上唯一的谓语中心词。这些特点对汉语的分析造成了一定的影响,使得汉语分析呈现出和英语(以及其他一些语言)不同的特点。不过也不能过分夸大这种不同。我认为,那种以为汉语完全不同于英语,因此有必要重新建立一套分析体系的想法是没冇道理的。从现冇的研究看,汉语分析所使用的技术和其他语言分析所使用的技术并没冇木质的不同,只是应用方式上有所区别(主要体现在词法分析方面)。而且从应用的效

4、果看,没有证据表明,这些技术用来分析汉语比用来分析英语效果更差。本文结合我们自己的一些工作,比较全而的介绍一下汉语词法分析和句法分析中所使用的各种技术。1汉语词法分析前面说过,汉语在形式上,并没有“词”这一个单位,也就是说,汉语的语素、词、短语、其至句了Z间(词也町以直接成句,称为独词句),都没冇明确的界限。这是不是说,汉语就没有必要做词法分析,可以直接做句法分析呢?实际并不是这样。因为如果这样做的话,会导致句法分析的搜索空间急剧膨胀,以致无法承受。实际上,根据我们的统计,未定义词在汉语中真实文本中

5、所占的比例并不大,可见绝大部分词都是可以在词典中找到的,如果这些词都要从头开始分析,势必给句法分析带來太多的负担。不过汉语的词法分析与英语(或其他屈折型语言)的词法分析有很大不同。就英语來说,采用确定的有限状态自动机就已经能基木解决问题,而对于汉语词法分析来说,需要更为复杂的计算工具。就问题的复杂性而言,我认为汉语的词法分析人致相当于英语的词法分析和基木短语分析之和。1.1汉语词法分析的任务汉语词法分析包括一下几个任务:1.查词典2.处理重叠词、离合词、前后缀3.未定义词识别a)时间词、数词处理b)

6、中国人名识别c)中国地名识别d)译名识别e)具他专名识别4.切分排歧5.词性标注1.2数据结构:词图(WordGraph)对于一个汉语句子,如果把两个汉字Z间的间隔作为结点,把一个汉语词作为连接两个结点的有向边,那么我们就可以得到一个无环有向图:根据这个数据结构,我们町以把词法分析中的几种操作转化为:1.给词图上添加边(查词典,处理重叠词、离合词和前后缀);2.寻找一条起点S到终点E的最优路径(切分排歧);3.给路径上的边加上标记(词性标注);1.3词典查询与重叠词、离合词和前后缀的处理词典查询主要

7、考虑分词诃典的数据结构为查询算法的时空消耗问题。在词典规模不大的时候,各种词典查询算法对汉语词法分析的效率整体影响并不大。不过当词典规模很大时(儿十万到上百万数量级),词典查询的吋空开销会变得很严重,需要详细设计-•个好的词典查询算法。(孙茂松,2000)一文比綾详细的总结了汉语词法分析中使用的几种词典杳询算法。(Aho&Cowsick,1990)提出的算法(简称AC算法)实现了一种口动机,可以在线性的时间里用一组关键词去匹配一个输入字符串,(Ng&Lua,2002)一文对AC算法中提出的自动机(实

8、际上就是一种词典索引的组织方式)进行了改进,可以快速实现输出汉语句子的多种切分候选结果。対词典查询算法感兴趣的同学可以去查阅这儿篇文章,这里不再做详细的介绍。汉语重叠词的重叠方式有很强的规律,处理起来并不困难。例如汉语的双字形容词的重叠现象主要有三种:AABB.ABAB、A里AB。遇到这种形式的词,只要还原成词语原形AB并查词典即可。汉语词的前后缀不多,处理也不困难,通过简单的规则,即可这里不做介绍。离合词的处理稍微复杂一些。现在一般的词法分析器都没有对离合词进行处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。