藏文自动分词与词性标注研究

藏文自动分词与词性标注研究

ID:35096717

大小:5.76 MB

页数:61页

时间:2019-03-17

藏文自动分词与词性标注研究_第1页
藏文自动分词与词性标注研究_第2页
藏文自动分词与词性标注研究_第3页
藏文自动分词与词性标注研究_第4页
藏文自动分词与词性标注研究_第5页
资源描述:

《藏文自动分词与词性标注研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1学校代码:品0052。"雲1I?游义聲MINZUUNIVERSITYOFCHINA硕±学位论文藏文旬动分词与词牲枉法研堯姓名;洛桑嗔登指导教师;赵小兵教授学院;信息工程学院专业;计算机科学与技术完成日期;2016.05.10学位论文使用授权书根据《中央民族大学关于研究生学位论文收藏和利用管理办法》,我校的博±、硕±学位获得者均须向中央民族大学提交本人的学位论文纸质本及相应电子版。本人完全了解中央民族大学有关研究生学位论文收藏和利用的管理规定。中央《》目:1民族大学拥有在

2、著作权法规定范围内的学位论文使用权,P()学位获得者必2须按规定提交学位论文(包括纸质印刷本及电子版);()为教学和科研目的,学校可W将公开的学位论文作为资料在图书馆等场所提供校内师生阅读等服务;(3)根据教4育部有关规定,中央民族大学向教育部指定单位提交公开的学位论文;()学位论文作者授权学校向中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子。版并收入相应学位论文数据库,通过其相关网站对外进行信息服务同时本人保留在其他媒体发表论文的权利。本人承诺:本人的学位论文是在中央民族大学学习期间创作完成的作品,并己一通过论

3、文答辩,如因不同造成不;提交的学位论文电子版与纸质本论文的内容致良后果由本人自负。本人同意遵守上述规定。(保密的学位论文在解密后适用本授权书:囚□保密期限至,本论文不保密,年月止)作者暨臟人签字:辱典已■2〇/年v月日i如/学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研巧成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的。、已公开发表或者没有公开发表的作品的内容对本论文所及的研究工作做出贡献的其他个人和集体,均已在文中明确方式杨明。本学位论文原创

4、性声明的法律责任由本人承担。学位论文作者签字;乎20年胡口//:^曰II摘要随着对语言信息处理研巧工作的不断深入,藏文信息处理技术也从文字处理逐步转向语言信息处理。藏文自动分词和词性标注是进行藏语语义理解、藏文信息检索、藏语与其他语种之间的机器翻译等的首要问题。目前国内很多研究机构、学者在汉语自然语言处理领域已经开发出了较多成熟的系统,比如:哈尔滨工业大学的LTP、复旦大学的FudanNLP等,这些开放的系统正在推动着汉语自然语言处理的进步与发展。反观藏语信息处理研究,基础比较薄弱,虽然有不少公开发表的研究成

5、果文章,但是公开可用的系统寥寥无几。本文采用条件随机场统计模型进行藏文分词标注,并利用藏文自身语言特征,采用知识融合的方式对基于条件随机场模型的分词标注结果进行校正一,并实现了个基于web的藏文分词标注系统,能自动进行大规模藏文文本的自动采集、XML格式转换及藏文分词和词性标注,为后续的智能信息处理应用奠定了基础。本文研究的主要贡献和创新点体现在下H点:1、基于大规模语料的藏文分词标注模型的构建III本文从西藏新闻网、人民网和新华网藏语频道、青海藏语广播网等10多个主流的藏语网站获取的藏语语抖,所涉及的领域范围包括新

6、闻、娱乐、、文化-诗歌、宗教等不同类别的文章。除此之外,还包括19年级的藏语教材内容。先后构建了35.1M即100多万个词的分词模型的训练和测试语料,785M即398及.万词的词性标注模型的训练和测试语料,实验语料规模。庞大,所涉范围广通过实验验证,详细分析了模型构建过程中所选取的每个特征项对标注结果的影响,确定最优特征模板,且取得了满意的藏文分词标注实验结果。2、知识融合的分词标注策略基于条件随机场的统计模型在藏文分词标注上取得了不错的效果,但是一些缺陷依然存在。本文对基于条件随机场统计模型的藏文分词标注结果中的错误

7、进行详细分析,归纳总结了基于藏文自身知识的分词标注规则,此来对统计模型分词的结果进行校正,得到最终的分词标注结果。本文分别对3.6M4006M的语巧.料进行分词和词性标注的开放实验,结果表明该系统的%〇〇分词正确率、召回率、F值分别是96.11、96.03/〇、96.06/〇,词性标注准确率达到98.,系统已经能够满足基本的实用需求。3、实现了开放实用的分词标注系统一最后,本文在上实验结果的基础上设计并实现个基于web的藏文自动分词标注系统。该系统是基于B/S模式,可在任何地方进行操作而不。用安装专口的软件,为使用带来方便关

8、键词:藏文;分词;词性标注;条件随机场

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。