欢迎来到天天文库
浏览记录
ID:34809694
大小:2.50 MB
页数:50页
时间:2019-03-11
《基于最大熵模型特征选择算法中文分词增量学习的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着信息化社会的发展,网络的不断瞥及,中文信息处理技术的应用越来越广泛。中文分词技术作为中文信息处理技术的基础,已经成为制约中文信息处理技术发展的一项关键和核心技术。目前,中文分词方法主要有两大类,一类是基于规则的方法.另一类是基于统计的方法,此外还有一些综合方法和其它方法。虽然这些方法大大推动了中文分词研究的发展,但在实际应用中,仍然面临着以下三个常见问题:分词规范问题、歧义问题、未登录词问题。目前,已经应用于中文分词技术的机器学习算法有简单贝叶斯、最大熵、神经网络、支持向量机、遗传算法等
2、,这些算法在中文分词的应用中都有非常好的效果。但是,这些算法仍然难以应对与日俱增的数据规模。当出现新增的训练数据样本时,算法为了适应新的数据样本,必须将所有的数据重新学习一遍,以建立新的计算模型。这样.算法浪费了大量的时问和空间。因此,本文将最大熵模型特征选择算法引入到中文分词技术的研究中,以应对训练语料库规模的日益增大,适应增量学习的要求.本文所作的主要工作如下:(1)研究增量学习的基本理论和基本算法。(2)研究信息论中条件最大熵的理论,改进最大熵模型的特征选择算法以适应增量学习的要求.(3)
3、研究交集型歧义和组合型歧义的特征模板的构建,并且利用构建的特征模板进行特征选择,选出有代表性的、不冗余的有效特征.(4)利用模型进行交集型和组合型歧义字段消歧处理。(5)基于最大熵模型特征选择算法构建一个中文分词系统,使用不断增大的语料库进行训练,避免重训练,提高分词系统的适应性.关键词=中文分词:增量学习;特征选择;最大熵;歧义消解AbstractWiththedevelopmentoftheinformationsocietyandthepopularizingofnet.theapplic
4、ationofChineseinformationprocessingtechnologyisbecomingmoreandmorewidely.AsthebasisofChineseinformationprocessingtechnology,Chinesewordsegmentationtechniquehasb&.,omeakeyandcoretechnology,constrainingthedevelopmentofChineseinformationprocessingtechno
5、logy.Atpresent,theChinesewordsegmentationmethodsaremainlytwocategories,oneisrule-basedapproach,andtheotherisbasedonstatistical,inaddition,therea糟stillsomeintegratedmethodsandothermethods.ThesemethodssignificantlycontributedtothedevelopmentofChinesewo
6、rdsegmentation陀∞a佗ll'butinfact,stillface、Ⅳi仇thefollowingthreecommonissues:wordnorms,ambiguouspmbl嘶ls,unknownwordproblem.Atpresent,theChinesewordsegmentationmethodhasbeenusediIlmachinelearningtechnology,suchassimpleBayesian,m雹lximmentropy,neuralnetwor
7、ksandsupportvectormachinesandgeneticalgorithmandSO011.Thesemethodshaveex∞llenteffectsiIIChinesewordsegmentationapplications.However,theyarestilldifficulttocopewiththeincreasingdatasize.Whennewtrainingdatasamplesarediscovered,thesemethodsmustbelearnal
8、lthedataagaintoadapttothem,andcreateanewcomputingmodelfinally.Thesemethodswastealotoftimeandspace.Therefore,thearticleintroducedthefeatureselectionalgorithmof111a)【imumentropymodelinthestudyofChinesewordsegmentation,tocope州tlItheincreasingsizeoftheIr
此文档下载收益归作者所有