资源描述:
《基于Co-training方法的中文组块识别的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东北大学硕士学位论文摘要基于Co-training方法的中文组块识别的研究摘要句法分析一直是自然语言处理的一个基础性的研究课题,近年来部分分析,也叫浅层分析、组块分析,成为自然语言处理的热点。现在组块分析广泛用于自然语言处理的众多方面,尤其是在基于实例的机器翻译EBMT研究中,组块分析是重要技术之一。随着机器学习理论的发展,越来越多的机器学习方法应用在自然语言处理的中各个领域,尤其是无指导和半指导的机器学习方法。主要原因有:一方面,在很多自然语言处理的方法中,特别是基于统计模型的方法,加标的训练语料是处理的基础。,而训练语料人工加标是需要在极强的专
2、家知识下耗费大量的人力物力;另一方面,网络的高速发展对于自然语言处理来说带来既是机遇又是挑战,网络内容指数级增长,为自然语言处理提供源源不断的免费真实”生“数据。本文采用半指导的机器学习方法Co-training进行中文组块识别的研究,在论文中,我们定义了中文组块的定义,在可能近似正确模型(PAC)的框架下讨论了Co-training方法的形式化定义。我们通过选取算法理论不同的分类器来定义Co-training方法中的两个,角度“,在选择策略上,我们提出了基于甲一致性‘的实例添加策略,实验中我们选用基于统计的增益的隐马尔可夫模型(Transduct
3、iveHMM)和基于转换规则的分类器(fnTbI)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,另外,我们还选用最大嫡模型MaxEnt和fnTBL组合重复了实验,结果显示两个分类器的性能在不同程度上都有提高。实验证明了在我们独特的两个,角度‘的定义和基于’一致性,的选择策略下,Co-training算法在中文组块识别的任务中有显著的效果。关键字部分分析基于实例的机器翻译机器学习组块识别自我训练Co-training一致性选择策略东北大学硕士
4、学位论丈ResearchonChineseTextChunkingBasedonCo-trainingAbstractSyntaxanalysisisalwaysabasictaskinthenaturallanguageprocessing,partanalysis,alsocalledshallowparseorchunkidentification,becomesahotspotinthenaturallanguageprocessing.Now,chunkidentificationiswidelyusedinmanyfieldsofnat
5、urallanguageprocessing,especiallyintheexamplebasedmachinetranslation(EBMT),inwhichchunkidentificationisoneofmajortechniquesWiththedevelopmentofthetheoryofmachinelearning,machinelearningmethodesbecomesmoreandmoreattractiveinthenaturelanguageprocessing,especiallyunsupervisedands
6、emi-supervisedmachinelearningmethods.Itliesontwopoints,oneisthatLabeledtrainingsetisthebaseofmostmethodesofNLP,however,theworkoflabelingthetrainingsetbyhandiscostly,itneedsmanypeoplewithstrongexpertknowledgeworkinghardly.Theotheris,withtheadventoftheinformationeraandthedevelop
7、mentoftheInternet,thecontentofInternetincreaseswithexponentialspeed,wecangettheserawdatafreelyandusethemintheNLPresearch.InthispaperwebuildaresearchworkontherecognitionofChinesechunkwiththeCo-trainingmethod.WegivethedefinitionofChineseChunk,thendiscussformalizeddefinitionofCo-
8、trainingalgorithmunderthePACframework.Firstly,wedefinethetwo"