探析基于支持向量机的中文分词系统的研究

探析基于支持向量机的中文分词系统的研究

ID:34770744

大小:2.00 MB

页数:65页

时间:2019-03-10

探析基于支持向量机的中文分词系统的研究_第1页
探析基于支持向量机的中文分词系统的研究_第2页
探析基于支持向量机的中文分词系统的研究_第3页
探析基于支持向量机的中文分词系统的研究_第4页
探析基于支持向量机的中文分词系统的研究_第5页
资源描述:

《探析基于支持向量机的中文分词系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学硕士学位论文基于支持向量机的中文分词系统的研究姓名:朱小娟申请学位级别:硕士专业:交通信息工程及控制指导教师:陈特放20070512摘要通计学习理论,着重研究在小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法一支持向量机(SⅥ讧)。本文从支持向量机理论、方法和应用结合的角度出发,研究了支持向量机在中文分词中的应用。主要包括了以下的工作内容:1、通过对SVM的研究,根据SVM的分类特征,对样本输入的要求,核函数与参数进行选择。并且在对支持向量机分类时出

2、错样本点的分布进行研究的基础上,考虑将支持向量机与其它分类方法进行结合,如与最近邻分类(1心N)等分类算法进行结合,形成一种具有更高分类准确率的分类器。同时可以较好的解决应用支持向量机分类时核函数参数的选择问题,能较广泛的应用在各个分类领域中。2、详细介绍SVM在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高

3、,并具有一定的稳定性。3、在采用SVM的基础上,对容易出错的样本,采用和KNN算法相结合互补的方法,对中文分词中的歧义词语进行进一步的分词。提高分类的准确率。同时对歧义字段的表示方法也采用互信息,N元统计模型,t-N试这三种统计原理进行表示,分析其对分词准确度的影响,而采用更好的表示方法,以及提高SⅥ订的准确度。关键词支持向量机,K.邻近,中文分词,词频统计,互信息,N元统计模型,t-N试ABSTRACTStatisticallearningtheory(SLT)focusesonstatisticlawsandle

4、arningmethods.Itbuildsagoodtheoreticalframeworkandcreatesanewgenericlearningalgorithmsupportvectormachines(SVM).Basedonthetheory,methodsandapplicationofSVM.thisdissertationiSmainlyfocusontheapplicationofSVMusedforChinesewordsegmentation.Themaincontentsandinnova

5、tionsareasfollows:1.DeterminetherequirementsofthesimpleinputandselectthekemelfunctionandparametersthroughtheresearchonSVMandaccordingtoSVMclassification.BasedontheanalysisofthedistributionofinaccuratesamplesduringSVMclassification,andcombinedwiththeotherclassif

6、icationmethodssuchasKNN.ahigheraccuracyclassifieriSproposed.AlsoSOlVetheproblemoftheselectionforkemelfunctionswhenapplyingSVMtoclassifier,andCanbeappliedtovariousfields.2.IntroducetheapplicationofSVMforChinesewordsegmentationwhichisbasedonthestatisticoffrequenc

7、yofthewords.SegmenttheinputChinesesentencesandoutputcharacterstringwhichisusuallytwocharacterwordbunch.andcreateadictionary.Thedictionarystoreswordandthefrequencythatthewordappearsinmesedisposaltexts.Themumalinfclrmationisusedforstatistics.Comparedwiththetradit

8、ionalwordsegmentationmethods,themethodusedSVMalgorithmcarlimprovethesegmentationaccuracyandwithacertaindegreeofstability.3.BasedontheSVM.thisdissertationusesthemethodwhichco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。