欢迎来到天天文库
浏览记录
ID:37832691
大小:449.07 KB
页数:7页
时间:2019-06-01
《基于交叉覆盖算法的中文分词》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据计算机工程与设计ComputerEngineeringandDesign2010,31(6)1355·开发与应用·基于交叉覆盖算法的中文分词刘政怡垃,昊建国也,李炜啦(1.安徽大学计算机科学与技术学院,安徽合肥230039;2.安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039)摘要:中文分词是自然语言处理的前提和基础,利用分类效果较好的交叉覆盖算法实现中文分词。将中文分词想象成字的分类过程,把字放入向前向后相邻两个字这样一个语境下判断该字所属的类别,是自己独立,或是跟前一字结合,或是跟后一字结合,或是跟前后的字结合。对人民日报熟语料库进行训练,不需
2、要词典,可以较好地解决中文分词中的交叉歧义问题,分词正确率达90.6%。关键词:中文分词;覆盖;交叉覆盖算法;互信息;交叉歧义中图法分类号:TP39文献标识码:A文章编号:1000.7024(2010)06.1355.03ChinesewordsegmentbasedonalternativecovetingalgorithmLIUZheng—yiu,WUJian-guou,LIWeil’2(1.SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230039,China;2.KeyLaboratoryofI
3、ntelligentComputingandSignalProcessingofMinistryofEducation,AnhuiUniversity,Hefei230039,China)Abstract:Chinesewordsegmentisveryimportantinnaturallanguageprocessing.Chinesewordsegmentisregardsasclassifiedprocessofcharacter.ThecharacterisputinthelinguisticenvironmentwhichCoversfourcharacter
4、saroundit.Everycharacterbelongstooneofsuchfourcategories豁independentexistence,existenceconnectingwiththecharacterbefore,existenceconnectingwiththecharacterafterandexistenceconnectingwiththecharacterbeforeandafter.Thecategoryofeverycharacterisjudgedbyusingalternativecoveringalgorithmwhichh
5、asgoodclassificationeffect.Thismethodcarriesonstatisticsinalargeannotatedcorpusanddoesnotneedthedic—tionary.Ithasagoodsolutiontooverlappingambiguityandachieves90.6%accuracy.Keywords:Chinesewordsegment;cover;alternativecoveringalgorithm;mutualinformation;overlappingambiguity0引言英语以空格作为分隔单词的
6、标记,而汉语是连续的,字与字之间没有空格区分,因此,中文分词是自然语言处理的基础和关键。现有的分词方法有3判”:基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法。对于汉语而言,词是具有固定意义的最小单元,而汉语的书写以字为基本单位,所以考虑按字进行分类,是属于独立的,或是跟前一个字结合,或是跟后一个字结合,或是跟前后的字结合,这样分为4类,采用交叉覆盖算法对每个字进行分类,从而对句子进行划分。1交叉覆盖算法交叉覆盖算法叫的网络结构模型如图1所示。它是一种可以进行分类的算法,执行过程分为训练和测试两个阶段。在训练阶段,利用训练样本进行交叉覆盖求得覆盖领域作
7、为三层网络的隐含层,例如用一个三层神经网络来构造一个分类器,输入样本集为n维欧式空间的点集Q={X1,x2,⋯,xe,X‘∈Ro),输出集为s个子集,分别是Q。=(X1,r,⋯,妒”},⋯,Q={x蜘阱1,x缸1M,⋯,xq},将输出为yi=(0,⋯,1,0,⋯,0Xi=1,2,⋯,s)的点划归给QI,以此通过划分领域的方法将不同类的点区分开来,称为交叉覆盖领域;测试阶段,输入层为测试样本输入集,利用交叉覆盖训练得到的隐含层,三层神经网络中的输出层即为测试样本集的分类结果。交叉覆盖算法其实是一种构造性算法,先求得第一类点的覆盖
此文档下载收益归作者所有