人工智能与机器翻译自动分词

人工智能与机器翻译自动分词

ID:30402270

大小:93.32 KB

页数:14页

时间:2018-12-29

人工智能与机器翻译自动分词_第1页
人工智能与机器翻译自动分词_第2页
人工智能与机器翻译自动分词_第3页
人工智能与机器翻译自动分词_第4页
人工智能与机器翻译自动分词_第5页
资源描述:

《人工智能与机器翻译自动分词》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、人工智能与机器翻译自动分词人工智能与机器翻译-自动分词2010-10-2116:48部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简单了。尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出了不少方法,它们各有优缺

2、点,也可能是基于特定环境的。5.2.1典型的自动分词方法正向最大匹配法和逆向最大匹配法正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。在实际应用中,方法有所变化。如下述算

3、法我们初始不是取六个字而是取长度最短词的个数。A1:一条汉语语句分划成单一字符X1,X2,…,XM。A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字重复此工作,直至字符数为Lmax为止。A4:若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下Lmin为止。高频优选法这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同音节词的词频构成为:双音节词大约有74%;三音节词大约有3.7%;单音节词大

4、约有17.2%;而五以上字音节词则大约只有0.4%左右。汉语是一字一音节,因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问题也无能为力,出错率并不低。其它方法设立切分标志切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干短链,然后再用其它切分方法进行

5、各种细加工,这种多方法合作的综合应用,途径增多,可以大大提高效率。扩充转移网络分词法它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。目前大多数的自然语言理解系统都把词典组织成一个表,表是静态的。使用扩充转移网络来组织词

6、典就可以构成一个动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。全自动词典切词这种方法完全使用切词规则切分词语,其规则中的参数由词典提供。该方法可以部分解决歧义问题,但因是匹配切词,效率不高。规则描述语言切词法规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。其中,整个规则语言将由若干个不同性质的规则块构成,而每一个规则块又包括多条规则,这些规则块的结构一般采用多层次的树型结构(当然,也可以采用其它结构,例如链式结构)。该方法对正确描述汉语是一种有意义的尝试,值得深入研究。多遍扫描联想法这种方法是使用

7、切分标志把文本切分成若干子串。它一般分成两步进行:第一步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将所有词群细分为词。在这种方法的操作中,分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方法,方法的基点立足于可靠性、实用性和通用性。神

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。