汉语分词在中文软件中的广泛应用

汉语分词在中文软件中的广泛应用

ID:24839883

大小:50.00 KB

页数:5页

时间:2018-11-16

汉语分词在中文软件中的广泛应用_第1页
汉语分词在中文软件中的广泛应用_第2页
汉语分词在中文软件中的广泛应用_第3页
汉语分词在中文软件中的广泛应用_第4页
汉语分词在中文软件中的广泛应用_第5页
资源描述:

《汉语分词在中文软件中的广泛应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、汉语分词在中文软件中的广泛应用摘要中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。一、为什么需要汉语分词我们知

2、道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”[1],我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2]然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。以拼音输入中的同音词自动辨识为例,据我们统计,汉语单字同音现象是非常严重的。以6763个汉字为例,没有同音字的汉字只有16个。其他汉字都有同音字。其中最多的有116个同音字。而汉语词的同音现象则有很大

3、的改善。以52505的词表为例,其中35942个词语没有同音词。因此,大多数同音字可以依靠词来确定。例如:”yi”对应的同音字“以,一,易,已,意”,分别可以在“以为,一定,容易,已经,意义”中来确定。对于词语(包括单字词)的同音现象,则需要运用词语之间的合理搭配以及词语在句子中的合法运用来确定。比如“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。但是这里“枝”是和“花”的合理搭配。也就是说”一+枝+可爱的玫瑰花”是合理的搭配。由此不难看出,分词对于同音词自动辨识的作用。而同音

4、词的自动辨识也是语音自动识别所要解决的重要问题。除了同音词的自动辨识,汉语的多音字自动辨识仍然需要分词的帮助。例如:“校、行、重、乐、率”等都是多音字。无论是拼音自动标注还是语音合成都需要识别出正确的拼音。而多音字的辨识可以利用词以及句子中前后词语境,即上下文来实现。如以上几个多音字都可以在以下几组词中得以定音:学校(xiao)/校(jiao)对、行(hang)列/行(xing)进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)、率(shuai)领/效率(lv)。汉字的简体/繁体转换、信

5、息检索和信息摘录、自然语言理解、文本分类、机器翻译、文本校对等中文信息处理系统同样都首先需要分词作为其最基本的模块。二、汉语分词所面临的关键问题及分词算法汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3……Cn),输出是汉语的词串(M)这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。根据我们小规模测试的结果,其正确率

6、为95.422%,速度为65,000字/分钟。这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。基于统计的分词这种方法首先切分出与词表匹配的所有可能的词,这种切分方法称为“全切分”,运用统计语言模型和决策算法决定最优的切分结果。这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。根据我们小规模测试的结果,其正确率为96

7、.252%。分词速度为:40,000字/分钟。基于规则和基于统计相结合这种方法首先运用最大匹配作为一种初步切分,再对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结合的方法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。目前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别的处理,基本解决了分词所面临的最关键的问题。而且由于优秀的辞典结构和算法设计,分词速度非常快。根据我们小规

8、模测试的结果,其正确率为97.948%。分词速度为:200,000字/分钟。但是,目前这个分词系统对于组合歧义的处理还没有涉及。这一分词系统我们称之为:SSWord2000中提供了对于文本自动标音的功能,我们知道,汉语存在一字多音的问题,如何决定多音字的正确拼音哪?这里,我们仍然利用分词系统作为基础模块根据上下文来判别其正确的拼音。例4:这里,我们看到多音字:“重”被正确标注为“zhong4”和“c

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。