特定领域汉语分词标准制定方法的研究.pdf

特定领域汉语分词标准制定方法的研究.pdf

ID:50106970

大小:5.59 MB

页数:65页

时间:2020-03-04

特定领域汉语分词标准制定方法的研究.pdf_第1页
特定领域汉语分词标准制定方法的研究.pdf_第2页
特定领域汉语分词标准制定方法的研究.pdf_第3页
特定领域汉语分词标准制定方法的研究.pdf_第4页
特定领域汉语分词标准制定方法的研究.pdf_第5页
资源描述:

《特定领域汉语分词标准制定方法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、如交辨,胃JIAOTONGUNIVERSITY細学位论翊心主I特定领域汉语分词标准li定方法的研究HP学科专业计龍科学与技术指导請杨晓辟副教授rHSH^p硕古学位论文特定领域汉语分词标准制定方法的研究Researchon化esecificationofChineseWordSegmentationpDesinedfbrSecialDomaingp作者:白露导师:杨晓辟北京交通大学2017年3月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保

2、留、使用学位论文的规定。特授权北京交通大学可>1将学位论文的全部或部分内容编入有关数据库进行检索,提(^,并采用影印、缩印或扫描等复制手段保存供阅览服务、汇编W供查阅和借阅。同意学校向国家有关部n或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名;、巧'签字曰期:)〇年委月刮曰签字曰期:年^月曰]学校代码:10004密级:公开北京交通大学硕±学位论文特定领域没语分词标准制定方法的

3、研究ResearchontheSpecificationofChineseWordSegmentationDesinedforSecialDomaingp作者姓名:白露学号:13120379导师姓名::杨晓時职称副教授学位类别:工学学位级别:硕±学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2017年3月i致谢研究生的生活即将画上句点,在我研巧生期间收获了很多宝贵的东西,伴随我一、生的成长。在我研究生学习期间,特别要感谢我的导师杨晓巧副教授,

4、在我生活一盏启明灯,教会了我面对困难、挫折的方法学习上给予的帮助和指导。杨老师像,在未来工作选择上也给予了我们意见和帮助。杨老师非常正的人生观、价值观、世界观也时时刻刻影响着我。、,同时,我也要特别衷屯的感谢张玉洁教授张老师严谨的治学态度,律己的生活态度,是张老师无私的奉献,认真的工作态度在研究生期间给予了我极大的影响一一代又代的学者,也祝愿老师桃李满天精神孕育了,在此我要致W我深深的敬意下。、本文的研究工作是杨老师和张老师悉屯的指导下完成,在此我再次致W我最衷也的感谢。同时她们对于我的论文和研究工作提出了

5、指导性意见,也在我撰写论文期间给予了极大的关也。此外,感谢实验室的单华学姐、罗特、马军等同学对我论文的研究工作、生活、。学习中给予的帮助和支持,也祝愿他们未来之路顺利,必中满满的感激一一最后我还要感谢家人和朋友直来的支持,希望大家未来切、理解和帮助顺利。北京交通大学硕±学位论文摘要摘要汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着。重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大但是由于特定领域分词标注语料匿乏,使得现有的基于通用领域的分词系统对特定领域文本

6、进行分词时会造成分词精度下降,原因在于:1特定领域专业术语切分存在多();样性,缺少分词标准来规范,从而影响分词精度口)特定领域与通用领域词汇结"跨界"合时所产生的问题,也就是交集型歧义切分问题。现有分词系统并不能对此问题提供良好的解决方案,从而造成分词精度下降。针对W上两个问题,本文研巧特定领域分词标准制定的方法,规范特定领域专业术语切分方式,标注特定领域语解,提离特定领域分词精度;提出誕合少量标注,从而提高分词精度数据的统计方法来解决交集性歧义切分问题。本文主要包括W下两方面工作:(1)针对特定领域分词

7、标准缺乏的问题,本文提出基于统计特征的决策树分类方法,利用己有的新闻领域分词标准中的词语统计特征,包括AV值、边界楠和字,符串频度值特征,,并结合特定领域词语特征混合训练分类模型用于专业术语判定制定特定领域汉语分词标准。在制定的分词标准指导下,本文对科技领域语料自动标注,获得大规模标注语料。实验结果显示,边界贿、AV值和字符串频度值统计特征在决策树分类模型中获得最好结果,在此分词标注指导下构建的自动标注系统获得分词精度的提升。P,使得术语与通用词语相邻时位)特定领域文本含有大量领域特有专业术语,于各自边界的

8、汉字容易成词,为分词边界切分引入更多不确定性导致分词精度下降,被称为交集型歧义切分问题。针对交集型歧义切分问题,本文提出基于主动学。习的局部数据标注方法,实现模型的领域自适应其基本思想

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。