基于错误驱动的汉语词性标注研究(终极版)

基于错误驱动的汉语词性标注研究(终极版)

ID:9371758

大小:447.00 KB

页数:51页

时间:2018-04-29

基于错误驱动的汉语词性标注研究(终极版)_第1页
基于错误驱动的汉语词性标注研究(终极版)_第2页
基于错误驱动的汉语词性标注研究(终极版)_第3页
基于错误驱动的汉语词性标注研究(终极版)_第4页
基于错误驱动的汉语词性标注研究(终极版)_第5页
资源描述:

《基于错误驱动的汉语词性标注研究(终极版)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、目录摘要IABSTRACTII第1章绪论11.1论文背景11.2论文意义11.2.1国外主要语料库简介21.2.2国内主要语料库简介31.2.3词性标注方法研究现状41)基于规则的方法42)基于统计的方法53)规则与统计相结合的方法71.2.4论文各章节安排8第2章基于极大熵的词性标注92.1最大熵原理92.2最大熵建模92.2.1样本特征描述112.2.2数据训练112.3特征选择122.3.1问题的提出122.3.2特征选择实验13第3章汉语兼类词和词性标注错误研究163.1汉语的词性兼类问题163.2兼类词标注中的错误分析

2、和使用方法183.2.2训练模型进行兼类词标注中的错误输出分析193.2.3兼类词的概率特征函数25第4章实验方案和分析274.1实验设计274.1.1实验语料描述274.1.2实验工具284.1.3实验方案301.概率特征模型302.外部知识模型313.子分类模型324.2实验结果及分析334.3下一步的工作34总结与展望355.1论文工作总结355.2展望36参考文献37致谢39附录401.主程序源代码:402.相关的结果截图48摘要随着互联网文化和经济的飞速发展和信息爆炸时代的到来,能够在短时间内处理大规模文本且从中挖掘和

3、抽取语言信息的计算语言学快速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫切的需要,以计算语言学为主的多语言语料库切分和标注技术越来越受到语言学专家的重视。要使语料库真正为提高自然语言处理的水平服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行语法、语义、语用分析的基础和必要前提,如何解决语料库的词性标注问题仍是当今的一项重要的基础工作。汉语词性标注的成果包括基于统计和规则两种处理方法。语言学工作者们常用的统计算法模型,如最大熵模型、隐马尔可夫模型和决策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工

4、编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达到较为理想的结果。本文在介绍了提出的汉语词性标注方案也是规则和统计结合的方法,首先在极大熵标注模型的基础上给出了一个汉语词性标注方案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依靠算法和规则模板的常规方法,从原标注系统的标注错误样本中获取上下文,利用上下文信息形成的概率特征函数计算出容易出错的词的特征概率。另外,提出在统计的基础上加入外部知识库和分类器的联合修正算法,较好地完成了针对兼类词复杂类项的标注任务,缩短了模型运行占用的时间。关键词:汉语词性标注,兼类

5、词错误驱动,最大熵IIABSTRACTIntherecentyears,withtherapiddevelopmentandenlargementoftheChineseCorpusandannotationtechnologies,alargescaleoflanguageblockbasedatnationalitylanguageanddifferenttypesoftaggingfeaturemustersappeared.Theresearchesofthedeep-processingmethodsandreleva

6、ntalgorithmsareinneedfortheadvancementofNatureLanguageProcessing.Justliketheotherlanguage,thefirststeptoapproachChinesecorpusknowledgeispart-of-speechtagging.Annotationsystemswhichcanrunonthecomputerssupportsthecomputationallinguisticswhichhaveattractedwideconcernsfr

7、omtherelatedfieldssuchasArtificialIntellegence.Thereareseveralannotatingsolutionswhichmostlybasestatisticalalgorithmandruleswhichwaswrittedmanually.SuchastheMaxentEntropymodelandHiddenMarkovModelRule,whichintegrateddifferentrules-templatescanprovidetaggingtoolsforNat

8、ualLaguage.Butthetaggingresultsarenotgoodenoughtoapplytothedeeplevelannotation.Accordingtothestatiscalexampleswhicharecollectedfrom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。