浅析中文信息处理的主流技术

浅析中文信息处理的主流技术

ID:26281139

大小:51.50 KB

页数:4页

时间:2018-11-24

浅析中文信息处理的主流技术_第1页
浅析中文信息处理的主流技术_第2页
浅析中文信息处理的主流技术_第3页
浅析中文信息处理的主流技术_第4页
资源描述:

《浅析中文信息处理的主流技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅析中文信息处理的主流技术摘要:本文分析了中文信息处理的主流技术,尤其是几个重要的部分,即N元模型、语音识别和句法分析技术。关键词:信息处理 N元模型 语音识别 句法分析    一、中文信息处理的特点  (一)汉字的特殊性  我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码

2、,汉字标准编码,汉字内码和汉字形码。  (二)书面汉语的特殊性  汉语的另一个特征是在书面表达中,词语和记号之间没有明显的分隔标记,这就使自动分词在书面汉语分析中成立一个难题。分词需要将连续的字按照一定的规范进行有序的组合,比较英文我们会发现,英文单词之间都是用空格来做分隔符,而中文则是习惯通过字、整句以及段落进行简单的划分,而这其中的一个难点就是对词语的划分,我们都知道,英语中也有短语划分的问题,但是由于中文的词语远比英语的数量和范围要庞大,因而处理起来更为困难。  (三)汉语语音的特殊性  在语音方面,汉语的

3、特征是音节结构相对简单,音节划分界限比较清晰,但是声调和变调是中文与英文的显著区别,因而在语音识别和语音合成方面来讲这是一个劣势,但是总体上来说汉语语音的处理比之其他方面来说还是相对容易的。  (四)汉语语法的特殊性  在语法方面,汉语词汇的句法功能相对来说难以判断,这与英语语言上的多变形态有着截然不同的表现。汉语主要依靠词序和虚词来表达不同的含义,因此如果不能很好的掌握句法,就特别容易产生歧义,因此汉语语句自动分析这一重要技术是一项难以攻克的技术。  二、中文信息处理的若干技术  (一)N元模型  设):P(p

4、;P(p;count(wi-2wi-1wi)/count(wi-2wi-1)式中count()表示一个特定词序列在整个语料库中出现的累计次数。  (二)语音识别  语音识别的最终目标是使人类与计算机之间实现真正意义上的自由交流,使机器听懂人类的语言,并及时的做出准确的反馈。语音识别技术包括了信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等主要内容。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取,在这个问题上我们通常采用的是以音节为识别单元。

5、另外,在特征参数的提取技术方面,由于语音符号中含有大量的信息,它们通常被称为声学特征。特征参数是决定语音识别质量的关键技术,因此我们应该极可能的采集所要传播语言的语义信息,剔除掉说话人的个人信息干扰,这样才能保证特征参数的有效性和准确性。  (三)句法分析  句法分析是以汉语的语法特征为分析方法,对句子、段落中的短语结构树进行各个句子成分关系的分析,分析的主要内容包括:句子中所有的单句,每个单句在句法中的作用是什么,在单句以上更大的语法结构是什么,句子中的短语或词组类型是什么,在句子中起了什么作用,最后,所有这些

6、成分是如何有机组合或附着在整个句子中的,这些就是句法结构分析的主要内容,这叫做线图分析法。值得说明的是,英语语言结构中主语必须置于谓语之前,否则所表达的意思就完全变化了,当然,在一些特定情况下,如倒装句结构中这种情况还是普遍存在的。这一点是与汉语有着显著的区别的。  三、结语  中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语言的各个部

7、分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。