手语文本自动分词设计和实现

手语文本自动分词设计和实现

ID:6084425

大小:32.50 KB

页数:11页

时间:2018-01-02

手语文本自动分词设计和实现_第1页
手语文本自动分词设计和实现_第2页
手语文本自动分词设计和实现_第3页
手语文本自动分词设计和实现_第4页
手语文本自动分词设计和实现_第5页
资源描述:

《手语文本自动分词设计和实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、手语文本自动分词设计和实现  摘要:手语是我国听障人重要交流之一,手语文本自动分词系统对听障人的政治、文化、生活的发展有着重要意义。研发了手语文本自动分词系统,这是在汉语切分的基础上针对手语特点进行手语切分,而且是利用计算机对文本里面的内容进行自动分词。该系统包括基本的自动分词方法、歧义的处理等基本模块,每一环节互相协助,互相依赖,共同决定该系统的价值、质量和应用水平。关键词:手语文本;自动分词;词典;切分中图分类号:TP391文献标识码:A文章编号:2095-2163(2013)06-0081-040研究背景目前国外已研制开发了一定數量的手语机器翻译系统,

2、其中的手语文本的特点是诸如美国手语的英语句子本身就有空格,并不需要自动分词技术。但现如今中国在这方面的研究仍是一片空白,然而国内现有2700万听障人,并且新生聋儿正以每年3万例的速度在增加。为了保障残疾人充分平等地参与社会生活,无差地共享社会物质文化成果,以及满足听障人的需要,并且提供无障碍服务,对手语机器翻译系统的开发已势在必行,本文研究旨在为今后中国手语机器翻译系统的设计与实现创造基础现实条件。11由于计算机并不如人类那般具有智能,能够有效地切分出手语文本,进而达到可适用于聋人使用的语言水平。如,“我和你一起吃饭”,在与听障人交流的时候,直接说“吃饭”,

3、计算机分词不能实现词语删减,所以计算机分词的能力是有限的。通过研究发现,中国手语植根于中国汉语的大环境之中。不论提出哪种转写方案,转写后的中国手语文本都面临着汉语所特有的自动分词问题[1],这是手语处理的关键技术之一,也是语言智能化处理的基础工程。只有对手语句子进行正确无误的分词,才有可能实现对自然手语的机器理解,为建设手语语料库、手语机器翻译提供必备前提。手语信息处理是以“手势”为基础[2],手语文本自动分词所面临的问题就是如何将文本内容自动切分出单个手势词,即使得计算机通过空格作为标志切分得到每一句话的词。为了提高“手势”切分准确率,就需要针对手语的特点

4、,实现对手语文本自动分词系统的设计与开发。1手语介绍汉语中最小的语言单位是字,而手语中则是手势(sign)[3]。手势是手语体系中最小的语言单位,无法再进行分割。这也是中国手语有别于汉语的地方。如果一个复合词由两个手势构成,这个手势就是语素。语素就是构成词的词素[2]。所以手势可以是一个词,也可以是一个词素。11比如“妻子”,在汉语分词里是一个词的单位,但在手语里却是合成词,因为手语对“妻子”的表示是“结婚”+“女人”,或者“女人”+“结婚”,这样本来在汉语里是一个语素的“妻子”,在手语里却是由两个语素构成的合成词。这种情况在中国手语里大量存在,经常是汉语里

5、一个名词为一个语素,在手语里却变成了两个语素,甚至三、四个语素。手语文本的切分规则就是以手势为单位,词与词之间则用空格分开。1.1词汉语中的一个词汇,用手语可以打出多个手势。以一个词为词根,做前缀或后缀。同一个词根有着不同的手势。不同含义有着相似手语打法的词(同音,借代)。不同词有同一手势。不同的词根都代表的一个手势。成语、歇后语则需逐次翻译每一个词。1.2手语句子划分的特点(1)“的”(定)、“地”(状)、“得”(补)这样的词语,在手语中是不用表达的。例:“的”,北京的工业发展很快。(形容词+结构助词)汉语划分:北京的工业发展很快。手语划分:北京的工业发展

6、很快。(2)动宾一体。当句子出现动宾一体的时候,手语会将其转化为一个手势去表达该动作。11(3)动词+介词(到、去、在、向、于、自)。在手语中,介词不用打手势,跟随前一个动词表达动词的手势即可。(4)动词+动态助词(了)。同样跟随前一个词语。(5)感叹语气。在手语中,感叹词也常省略。(6)状语倒装。在这种现象里,聋人强调的是动词。(7)判断词。省略判断动词“是”。(8)名词。在手语中,部分名词需要逐字划分的。包括专业名词、普通名词,同一个名词可能需要多个手势组成。(9)数量词。修饰数量词作定语成分可省略、修饰数量词作定语中的量词可省略,数量词与字母有相同的手

7、势。2手语文本自动分词技术中国手语是一种独立的语言,本身具有象形表意的功能,由于汉语的影响和渗透,又增加了表音和表字的功能,中国手语和汉语之间的关系是借用与被借用的关系,这意味着中国手语跟汉语既有联系,又有区别[5]。中国手语分词可以借鉴国内外分词技术及算法研究的优势[6],同时从自身的词法、句法等出发,提出与之相应的手语分词方案[7-8]。本研究的手语文本自动分词系统结合词典、规则的方法[9]。两种方法进行结合,并互为补充,力求找到最合适手语文本自动分词的平衡点。手语文本中的词通用还原法切分手语文本内容时存在一些普遍的还原现象[10]。11概念:假设手语文

8、本内容是“HF”,F∈M,M为手语词典,其中H为词根

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。