基于主动学习的中文分词方法研究.pdf

基于主动学习的中文分词方法研究.pdf

ID:50412874

大小:3.54 MB

页数:54页

时间:2020-03-05

基于主动学习的中文分词方法研究.pdf_第1页
基于主动学习的中文分词方法研究.pdf_第2页
基于主动学习的中文分词方法研究.pdf_第3页
基于主动学习的中文分词方法研究.pdf_第4页
基于主动学习的中文分词方法研究.pdf_第5页
资源描述:

《基于主动学习的中文分词方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.‘去?\V,?韦轉— ̄——_'?---:??-六-10293公巧:、单位代码:密级:V-—三r之峡乂节'崇細VM脅雀^據写皮垂'i.硕女#像儉;f屬撫ij'.苗非繁iRi査芒]攀,''..^K:.参;kHW與、|《祭简/式烏.一-1‘-々?叩一’■-.t,乂.V、..请啦聲。:<*<-、.—占论文题目:基于主动学习的中义分词方法石开究'.?,?、!-‘、?‘''-:-r.令,葦輪:V、.、导‘'一':

2、涕叫鄉.饼;;V;.‘'.->:':v巧;20431;V,>、/;号10111T学\’'’?'II’:‘尸\’一冷V话’I嗦:、姓一;s名梁喜涛\气'’^^^■导师一^於^;..義讀带4獻学科专业计算化应用技术__1;'、处理硏究方向智能信肩■丢丢.編藏違軒?工学硕击.;:^申请学位类别_{聋茜::鱗梦>文2015/3/2论文提交日期’.'、J減c,.在/心..:’’‘...产r.皆聲!喔妾;起‘--'鑽;,叛;詔店縱古

3、f的Vv;'、'立^'C屯淨姆J.哨.-;一真苗為吃:ChineseWordSegmentationBasedonActiveLearningThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByLiangxitaoSupervisor:Prof.GuLeiMarch2015摘要中文分词是中文信息处理领域内的一个重要课题,传统的分词方法多基于统计模型,尽管可以取得不错的效果,但是统计模

4、型依赖大量有标注样本,具有人工标注样本代价高的缺点。主动学习方法在解决分词问题时会根据处理进程,选择最合适的少量的样本进行人工标注,从而达到通过使用大量无标注样本来提高分词效果的目的。因此,本文将主要研究基于主动学习的中文分词方法。本文首先介绍了中文分词的研究背景、研究意义和常用的分词方法。接下来介绍了条件随机场模型和主动学习方法,并对如何把条件随机场模型和主动学习方法引入到分词领域中做了阐述。最后重点介绍了本文提出的三种基于主动学习的中文分词方法:1.提出了基于委员会投票的主动学习分词方法。该方法的核心思想是通过集成学习方法来帮助构建

5、委员会,选择委员会投票分歧度最大的样本作为最有价值的样本进行人工标注。2.提出了一种基于分层选择策略的主动学习分词方法。该方法的主要特点是在不确定性选择方法基础上,把分词过程中的专有字符与其它汉字字符分开分别进行样例选择,另外该方法还可以通过计算实例间的差异性来解决重复标注问题。3.提出了一种基于邻域规则的主动学习分词方法。该方法的与众不同之处是利用未标注样本的邻域集合熵值来进行样例挑选,并且利用计算未标注样本同训练集合的欧氏距离来增加样本集合的多样性。关键词:自然语言处理,中文分词,主动学习,选择策略IAbstractChinesew

6、ordsegmentation(CWS)isanimportanttaskinChineselanguageprocessing.Mostoftraditionalsegmentationmethodsarebasedondictionaryandstatisticalmodel,buttheyallneedalargenumberoflabeledsamples.Activelearningcanusetheselectionstrategytochoosesomemostvaluablesamplesfromabundantunla

7、beledsamplesinthetrainingprocess,andemploythesechosensamplestoimprovetheperformanceofChinesewordsegmentation.SoactivelearningisstudiedandsomeChinesewordsegmentationalgorithmsareproposedinthisdissertation.Inthisdissertation,firstly,theresearchbackgroundandmethodsofCWSisin

8、troduced.Secondly,someactivelearningschemesarereviewedandsometheoreticalresearchissuesandapplicationsat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。