基于最大熵模型特征选择算法中文分词增量学习的研究

ID：34809694

大小：2.50 MB

页数：50页

时间：2019-03-11

资源描述：

《基于最大熵模型特征选择算法中文分词增量学习的研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、摘要随着信息化社会的发展，网络的不断瞥及，中文信息处理技术的应用越来越广泛。中文分词技术作为中文信息处理技术的基础，已经成为制约中文信息处理技术发展的一项关键和核心技术。目前，中文分词方法主要有两大类，一类是基于规则的方法．另一类是基于统计的方法，此外还有一些综合方法和其它方法。虽然这些方法大大推动了中文分词研究的发展，但在实际应用中，仍然面临着以下三个常见问题：分词规范问题、歧义问题、未登录词问题。目前，已经应用于中文分词技术的机器学习算法有简单贝叶斯、最大熵、神经网络、支持向量机、遗传算法等

2、，这些算法在中文分词的应用中都有非常好的效果。但是，这些算法仍然难以应对与日俱增的数据规模。当出现新增的训练数据样本时，算法为了适应新的数据样本，必须将所有的数据重新学习一遍，以建立新的计算模型。这样．算法浪费了大量的时问和空间。因此，本文将最大熵模型特征选择算法引入到中文分词技术的研究中，以应对训练语料库规模的日益增大，适应增量学习的要求．本文所作的主要工作如下：(1)研究增量学习的基本理论和基本算法。(2)研究信息论中条件最大熵的理论，改进最大熵模型的特征选择算法以适应增量学习的要求．(3)

3、研究交集型歧义和组合型歧义的特征模板的构建，并且利用构建的特征模板进行特征选择，选出有代表性的、不冗余的有效特征．(4)利用模型进行交集型和组合型歧义字段消歧处理。(5)基于最大熵模型特征选择算法构建一个中文分词系统，使用不断增大的语料库进行训练，避免重训练，提高分词系统的适应性．关键词=中文分词：增量学习；特征选择；最大熵；歧义消解AbstractWiththedevelopmentoftheinformationsocietyandthepopularizingofnet．theapplic

4、ationofChineseinformationprocessingtechnologyisbecomingmoreandmorewidely．AsthebasisofChineseinformationprocessingtechnology,Chinesewordsegmentationtechniquehasb&．,omeakeyandcoretechnology,constrainingthedevelopmentofChineseinformationprocessingtechno

5、logy．Atpresent,theChinesewordsegmentationmethodsaremainlytwocategories，oneisrule-basedapproach,andtheotherisbasedonstatistical，inaddition，therea糟stillsomeintegratedmethodsandothermethods．ThesemethodssignificantlycontributedtothedevelopmentofChinesewo

6、rdsegmentation陀∞a佗ll'butinfact,stillface、Ⅳi仇thefollowingthreecommonissues：wordnorms，ambiguouspmbl嘶ls,unknownwordproblem．Atpresent,theChinesewordsegmentationmethodhasbeenusediIlmachinelearningtechnology，suchassimpleBayesian,m雹lximmentropy,neuralnetwor

7、ksandsupportvectormachinesandgeneticalgorithmandSO011．Thesemethodshaveex∞llenteffectsiIIChinesewordsegmentationapplications．However,theyarestilldifficulttocopewiththeincreasingdatasize．Whennewtrainingdatasamplesarediscovered,thesemethodsmustbelearnal

8、lthedataagaintoadapttothem,andcreateanewcomputingmodelfinally．Thesemethodswastealotoftimeandspace．Therefore，thearticleintroducedthefeatureselectionalgorithmof111a)【imumentropymodelinthestudyofChinesewordsegmentation,tocope州tlItheincreasingsizeoftheIr

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 50



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于最大熵模型特征选择算法中文分词增量学习的研究

基于最大熵模型特征选择算法中文分词增量学习的研究

相关文章

相关标签