基于贝叶斯分类的汉字编码识别方法

基于贝叶斯分类的汉字编码识别方法

ID:39474661

大小:179.50 KB

页数:6页

时间:2019-07-04

基于贝叶斯分类的汉字编码识别方法_第1页
基于贝叶斯分类的汉字编码识别方法_第2页
基于贝叶斯分类的汉字编码识别方法_第3页
基于贝叶斯分类的汉字编码识别方法_第4页
基于贝叶斯分类的汉字编码识别方法_第5页
资源描述:

《基于贝叶斯分类的汉字编码识别方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于贝叶斯分类的汉字编码识别方法摘要本文提出了一种基于贝叶斯分类的汉字编码自动识别方法,该方法将被识别文本看成连续字节流,选取字节作为识别特征。首先在训练语料中统计各种编码的字节分布概率,然后在识别文本中提取若干个特征点计算被测文本为每种编码的概率,采用最大概率原则得到识别结果。实验结果显示,此方法准确率高,速度快,而且可扩展性强。关键词编码识别,贝叶斯分类,GB,BIG5AMethodforChineseEncodingIdentificationbasedonBayesClassifierAbstract Thepaperproposesanalgorithmtoid

2、entifythecodetypeofChinesecharacterbasedonBayesclassifier.Inthemethod,textsareregardedasbytestreams,andbytesasfeatures.Theidentificationprocessisasfollow,Firstthedistributingprobabilitiesof256bytesappearingingeneraltextofvariouscodetypesarelearntfromtrainingtexts,Second,severalfeaturesare

3、selectedonthetesttextstocomputethelikelihoodofeachcodetype.Finally,thecodetypecanbedeterminedaccordingtothemaximumlikelihood.Theexperimentalresultsshowthatthemethodcouldachievehighperformanceandbeexpendedeasily.Keywordscodeidentification,Bayesclassifier,GB,BIG5进入计算机时代以来,人们创造了很多计算机数据内部表示方案

4、来表达不同的文字和字符集。同样,在中文信息处理的发展中,随着应用需求的不断变化,也出现过多种不同的汉字编码标准。而目前广泛使用的编码包括大陆地区的GBK编码,港台地区的BIG5编码,以及统一字符集Unicode。由于各种系统和软件的兼容性不同,这些编码在相当长一段时间内将共存,所以汉字编码识别成为信息处理诸多领域面临的首要问题。汉字编码识别比起复杂的信息处理要相对简单,而且有些方法的准确率比较高[1,3],但这些方法都时间开销不确定的缺陷,在大规模文本处理中时间不好预测,在大规模文本处理中时间不好预测,难以满足实时需求。本文提出了一种基于贝叶斯分类的识别方法,能够快速准确

5、的识别多种编码,而且可扩展性强。本文第一部分介绍现有的几种常用编码识别算法,第二部分阐述贝叶斯分类模型在编码识别中的应用,第四部分是具体实现算法,第五部分是实验及结果分析,最后给出结论。1常用编码识别算法1.1基于字符集范围的识别方法虽然汉字编码方法众多,但是没有任何两种编码方法的编码范围完全重合,即每种码制都有自己特有的与其它码非重叠的编码空间,识别时只要出现了这种码制特有空间的字符,便可做出判断。如GB2312编码中首、尾字节的范围都是0xA1~0xFE,而BIG5编码的首字节范围是0xA1~0xF9,尾字节范围分为0x40~0x7E和0xA1~0xFE两个部分。尾字

6、节0x40~0x7E的BIG5字符即可成为其区别于GB编码的特征。此方法简单易行,但是局限性比较大,若识别对象中没有出现某种编码特有空间的字符,则无法判断其码制。1.2基于码制可信度的识别方法汉语中不同字符的使用频次相差较远,而相同字符在各种编码中对应内码也各自相同。所以,每个双字节序列在不同编码中出现的概率不同,在识别过程中利用这一性质,从头依次扫描所有双字节序列,若当前序列为Ci编码的概率最大,则Ci编码的可信度增加,直到某种编码的可信度达到预先设定的阈值,扫描停止,得出识别结果。该方法是广泛使用的一种识别方法,计算简单,但是识别的时间开销不确定,遇到连续ASCII编

7、码时要扫描大段文本才能做出判断,难以满足实时系统的需求。1.3基于字的N-gram识别方法还有一种是基于字的N-gram识别方法[1]。首先在大规模语料中训练得到每种编码的字频,根据一元语法模型增量计算输入串是各种编码的生成概率,最后根据概率值与阈值的比较及各码制之间的比较做出判断。该方法也在实际应用取得较好的效果,但遇到特殊情况下也存在增量扫描的问题。2.贝叶斯分类算法及其在编码识别中的应用贝叶斯算法是一种经典的分类算法,在诸多领域的分类问题中都得到有效的应用。而汉字的编码识别实际上也是也是分类过程,目的就是将一篇文档D标记

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。