中文分词算法在自然语言处理技术中的研究及应用

中文分词算法在自然语言处理技术中的研究及应用

ID:24719930

大小:50.50 KB

页数:4页

时间:2018-11-16

中文分词算法在自然语言处理技术中的研究及应用_第1页
中文分词算法在自然语言处理技术中的研究及应用_第2页
中文分词算法在自然语言处理技术中的研究及应用_第3页
中文分词算法在自然语言处理技术中的研究及应用_第4页
资源描述:

《中文分词算法在自然语言处理技术中的研究及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文分词算法在自然语言处理技术中的研究及应用中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联X在中国的兴起,更对中文信息处理提出要求,即在语义层面上处理中文,这使得中文分词算法的研究显得更加困难,中文分词技术的发展显得更为重要。   关键词:中文分词;自然语言处理;算法1.引言  伴随着计算机的日益普及,互联X的迅猛发展,文本的数量(电子邮件、新闻、X页、科技论文等)在不停的增长,因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下,自然语言处理技术的地位和作用日益重

2、要。经过几十年的研究,计算机处理自然语言的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤,是其他高层应用的基础,起着极其重要的作用。2.分句处理2.1分句处理技术简介  分句处理就是把句子以某些特定的标点符号为分隔划分为若干个句子。根据汉语对语句、句群和篇章的定义,主要以基本的标点符号:句号、问号、感叹号、分号、逗号等作为子句的分隔符。通过使用这些标点符号对语言进行计算机子句分割,完成分句处理。2.2分句算法的设计  在进行分词之前首先应对句子进行分割,分为以句子为单位的一个个语句片段。因为以逗号、分号来分隔的语句通

3、常能表达完整的语义信息,所以本文主要使用逗号、分号等标点符号也作为子句分句的分隔符号,以它们为标志进行语句的分句处理。  分句处理的具体算法设计如下:  ①判断答案字符串aString是否为空,若为空则结束;  ②取aString左侧的一个字符存入tChar中,判断tChar是否是句末标点符或回车符,若不是,转⑤;  ③若tChar是句末标点符号,则子句数组下标加1,并将字符tChar从字符串aString中删掉,转①;  ④若tChar为回车符或者换行符,去掉aString左侧两字符,并将字符tChar从字符串aString中删掉,转①。  ⑤将tChar合并到子句数组当前元素中,

4、去掉aString左侧一字符,转①。  上述算法中,aString为待处理的字符串,tChar为字符类型变量。3.分词处理3.1中文分词技术简介  中文分词(ChineseaxL;  ②从每个分句中的第一个字开始向后取L(L≤MaxL)个字;  ③在《知X》数据库中查找是否有由此L个字组成的词。如果有,则一个词语分解成功,并转⑤;  ④将这L个字中的最后一个字去掉,并令L=L-1,转至第③步骤(直至L=1,说明L已经是一个单字);  ⑤从这个句子中将该词删除,并判断句子是否已经为空,如果为空,则返回第②步,否则,算法结束。  其中MaxL表示《知X》数据库中的最长词条所包含的字数。当

5、前最大词长L≤MaxL。4.结束语  中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。