欢迎来到天天文库
浏览记录
ID:34770744
大小:2.00 MB
页数:65页
时间:2019-03-10
《探析基于支持向量机的中文分词系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文基于支持向量机的中文分词系统的研究姓名:朱小娟申请学位级别:硕士专业:交通信息工程及控制指导教师:陈特放20070512摘要通计学习理论,着重研究在小样本情况下的统计规律及学习方法性质。它为机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法一支持向量机(SⅥ讧)。本文从支持向量机理论、方法和应用结合的角度出发,研究了支持向量机在中文分词中的应用。主要包括了以下的工作内容:1、通过对SVM的研究,根据SVM的分类特征,对样本输入的要求,核函数与参数进行选择。并且在对支持向量机分类时出
2、错样本点的分布进行研究的基础上,考虑将支持向量机与其它分类方法进行结合,如与最近邻分类(1心N)等分类算法进行结合,形成一种具有更高分类准确率的分类器。同时可以较好的解决应用支持向量机分类时核函数参数的选择问题,能较广泛的应用在各个分类领域中。2、详细介绍SVM在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高
3、,并具有一定的稳定性。3、在采用SVM的基础上,对容易出错的样本,采用和KNN算法相结合互补的方法,对中文分词中的歧义词语进行进一步的分词。提高分类的准确率。同时对歧义字段的表示方法也采用互信息,N元统计模型,t-N试这三种统计原理进行表示,分析其对分词准确度的影响,而采用更好的表示方法,以及提高SⅥ订的准确度。关键词支持向量机,K.邻近,中文分词,词频统计,互信息,N元统计模型,t-N试ABSTRACTStatisticallearningtheory(SLT)focusesonstatisticlawsandle
4、arningmethods.Itbuildsagoodtheoreticalframeworkandcreatesanewgenericlearningalgorithmsupportvectormachines(SVM).Basedonthetheory,methodsandapplicationofSVM.thisdissertationiSmainlyfocusontheapplicationofSVMusedforChinesewordsegmentation.Themaincontentsandinnova
5、tionsareasfollows:1.DeterminetherequirementsofthesimpleinputandselectthekemelfunctionandparametersthroughtheresearchonSVMandaccordingtoSVMclassification.BasedontheanalysisofthedistributionofinaccuratesamplesduringSVMclassification,andcombinedwiththeotherclassif
6、icationmethodssuchasKNN.ahigheraccuracyclassifieriSproposed.AlsoSOlVetheproblemoftheselectionforkemelfunctionswhenapplyingSVMtoclassifier,andCanbeappliedtovariousfields.2.IntroducetheapplicationofSVMforChinesewordsegmentationwhichisbasedonthestatisticoffrequenc
7、yofthewords.SegmenttheinputChinesesentencesandoutputcharacterstringwhichisusuallytwocharacterwordbunch.andcreateadictionary.Thedictionarystoreswordandthefrequencythatthewordappearsinmesedisposaltexts.Themumalinfclrmationisusedforstatistics.Comparedwiththetradit
8、ionalwordsegmentationmethods,themethodusedSVMalgorithmcarlimprovethesegmentationaccuracyandwithacertaindegreeofstability.3.BasedontheSVM.thisdissertationusesthemethodwhichco
此文档下载收益归作者所有