中文文本分词及词性标注自动校对方法研究

中文文本分词及词性标注自动校对方法研究

ID:15516201

大小:27.50 KB

页数:3页

时间:2018-08-03

中文文本分词及词性标注自动校对方法研究_第1页
中文文本分词及词性标注自动校对方法研究_第2页
中文文本分词及词性标注自动校对方法研究_第3页
资源描述:

《中文文本分词及词性标注自动校对方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文文本分词及词性标注自动校对方法研究【摘要】:语料库建设是中文信息处理研究的基础性工程。汉语语料的基本加工过程,包括自动分词和词性标注两个阶段。自动分词和词性标注在很多现实应用(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着关键角色,为众多基于语料库的研究提供重要的资源和有力的支持。语料库的有效利用在很大程度上依赖于语料库切分和标注的层次和质量。当前对汉语语料的加工结果,虽已取得了一

2、定的成绩,但国家的评测结果表明,其离实际需要的差距还是很大的,还有待于进一步的提高。本文以进一步提高汉语语料库分词和词性标注的正确率,提高汉语语料的整体加工质量为目标,分别针对语料加工中的分词和词性标注两个阶段进行了研究和探讨:1.讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的学习,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对。2.讨论和分析了词性标注的现状,并针对词性标注问题,提出了一种基于粗糙集的兼类

3、词词性标注校对规则的自动获取方法。该方法以大规模汉语语料为基础,利用粗糙集理论及方法为工具,挖掘兼类词词性标注校对规则,并应用规则对机器标注结果进行自动校对。3.设计和实现了一个中文文本分词及词性标注自动校对实验系统,并分别做了封闭测试、开放测试及结果分析。根据实验,分词校对封闭测试和开放测试的正确率分别为93.75%和81.05%;词性标注校对封闭测试和开放测试的正确率分别为90.40%和84.85%。【关键词】:分词自动校对词性标注自动校对粗糙集中文信息处理语料库加工质量保证【学位授予单位】:山西大学【学位

4、级别】:硕士【学位授予年份】:2003【分类号】:TP391.12【目录】:1引言8-141.1语料库加工及其意义81.2语料库加工现状及分析8-121.2.1机器自动加工现状8-101.2.2分词及词性标注校对现状10-121.3本论文的主要工作12-142基于规则的分词自动校对14-222.1问题提出142.2分词校对规则的自动获取14-182.2.1分词校对知识的获取及表示15-162.2.2分词校对规则的生成16-182.3分词自动校对18-212.3.1自动校对算法18-192.3.2机器学习19-2

5、12.4规则的评价及规则集维护21-223基于粗糙集的兼类词词性自动校对22-313.1问题提出223.2相关理论简介22-243.2.1知识表达系统及决策表22-233.2.2决策表的约简23-243.3构建词性校对决策表24-273.3.1词性校对决策表的建立24-253.3.2词性校对决策表属性的约简25-273.4词性校对规则集的生成27-293.4.1规则一致化27-283.4.2规则集的评价及优化28-293.5词性自动校对29-314中文文本分词及词性标注自动校对实验系统31-404.1中文文本分

6、词自动校对系统31-344.1.1中文文本分词自动校对系统结构31-324.1.2各模块主要功能32-334.1.3测试结果及分析33-344.2中文文本词性标注自动校对系统34-404.2.1中文文本词性标注自动校对系统结构34-354.2.2各模块主要功能35-364.2.3测试结果及分析36-405结束语40-41致谢41-42参考文献42-44本论文购买请联系页眉网站。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。