基于交叉覆盖算法的中文分词

基于交叉覆盖算法的中文分词

ID:37832691

大小:449.07 KB

页数:7页

时间:2019-06-01

基于交叉覆盖算法的中文分词_第1页
基于交叉覆盖算法的中文分词_第2页
基于交叉覆盖算法的中文分词_第3页
基于交叉覆盖算法的中文分词_第4页
基于交叉覆盖算法的中文分词_第5页
资源描述:

《基于交叉覆盖算法的中文分词》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据计算机工程与设计ComputerEngineeringandDesign2010,31(6)1355·开发与应用·基于交叉覆盖算法的中文分词刘政怡垃,昊建国也,李炜啦(1.安徽大学计算机科学与技术学院,安徽合肥230039;2.安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039)摘要:中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合,或是跟后一字结合,或是跟前后的字结合。对人民日报熟语料库进行训练,不需

2、要词典,可以较好地解决中文分词中的交叉歧义问题,分词正确率达90.6%。关键词:中文分词;覆盖;交叉覆盖算法;互信息;交叉歧义中图法分类号:TP39文献标识码:A文章编号:1000.7024(2010)06.1355.03ChinesewordsegmentbasedonalternativecovetingalgorithmLIUZheng—yiu,WUJian-guou,LIWeil’2(1.SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230039,China;2.KeyLaboratoryofI

3、ntelligentComputingandSignalProcessingofMinistryofEducation,AnhuiUniversity,Hefei230039,China)Abstract:Chinesewordsegmentisveryimportantinnaturallanguageprocessing.Chinesewordsegmentisregardsasclassifiedprocessofcharacter.ThecharacterisputinthelinguisticenvironmentwhichCoversfourcharacter

4、saroundit.Everycharacterbelongstooneofsuchfourcategories豁independentexistence,existenceconnectingwiththecharacterbefore,existenceconnectingwiththecharacterafterandexistenceconnectingwiththecharacterbeforeandafter.Thecategoryofeverycharacterisjudgedbyusingalternativecoveringalgorithmwhichh

5、asgoodclassificationeffect.Thismethodcarriesonstatisticsinalargeannotatedcorpusanddoesnotneedthedic—tionary.Ithasagoodsolutiontooverlappingambiguityandachieves90.6%accuracy.Keywords:Chinesewordsegment;cover;alternativecoveringalgorithm;mutualinformation;overlappingambiguity0引言英语以空格作为分隔单词的

6、标记,而汉语是连续的,字与字之间没有空格区分,因此,中文分词是自然语言处理的基础和关键。现有的分词方法有3判”:基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法。对于汉语而言,词是具有固定意义的最小单元,而汉语的书写以字为基本单位,所以考虑按字进行分类,是属于独立的,或是跟前一个字结合,或是跟后一个字结合,或是跟前后的字结合,这样分为4类,采用交叉覆盖算法对每个字进行分类,从而对句子进行划分。1交叉覆盖算法交叉覆盖算法叫的网络结构模型如图1所示。它是一种可以进行分类的算法,执行过程分为训练和测试两个阶段。在训练阶段,利用训练样本进行交叉覆盖求得覆盖领域作

7、为三层网络的隐含层,例如用一个三层神经网络来构造一个分类器,输入样本集为n维欧式空间的点集Q={X1,x2,⋯,xe,X‘∈Ro),输出集为s个子集,分别是Q。=(X1,r,⋯,妒”},⋯,Q={x蜘阱1,x缸1M,⋯,xq},将输出为yi=(0,⋯,1,0,⋯,0Xi=1,2,⋯,s)的点划归给QI,以此通过划分领域的方法将不同类的点区分开来,称为交叉覆盖领域;测试阶段,输入层为测试样本输入集,利用交叉覆盖训练得到的隐含层,三层神经网络中的输出层即为测试样本集的分类结果。交叉覆盖算法其实是一种构造性算法,先求得第一类点的覆盖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。