基于事件抽取的日汉新闻语料库构建研究

基于事件抽取的日汉新闻语料库构建研究

ID:35179254

大小:4.88 MB

页数:63页

时间:2019-03-20

基于事件抽取的日汉新闻语料库构建研究_第1页
基于事件抽取的日汉新闻语料库构建研究_第2页
基于事件抽取的日汉新闻语料库构建研究_第3页
基于事件抽取的日汉新闻语料库构建研究_第4页
基于事件抽取的日汉新闻语料库构建研究_第5页
资源描述:

《基于事件抽取的日汉新闻语料库构建研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、難誦胃柳:BEIJINGJIAOTONGUNIVERSITY硕zb学位论文H基于事件抽取的日汉新闻语料库构建研究作者姓名杨健学科专业计龍齡自齡.指导教师徐金安副教授胃2培养院系计算机自信息S术学院5^;藝,纖面處??*!厨ffi如系交道乂讓硕±学位论文基于事件抽取的日汉新闻语料库构建研究民esearchonCh-NewsineseJapaneseCorusConstructionUsinpgEventExtraction作者:杨健导师;

2、徐金安北京交通大学2016年9月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可W将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供查阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可レッ为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)输令杂学位论文作者签名:藏兔导师签名:签字曰期:年//月/曰签字曰

3、期:W八年月曰/学校代码:10004密级:公开北京交通大学硕±学位论文基于事件抽取的日汉新闻语料库构建研究Researchon-newscorusconstructonusChineseJapaneseiingpeventextraction:1312044作者姓名:杨健学号1:导师姓名徐金安职称:副教授学位类别:工学学位级别:硕±学科专业;计算机科学与技术研究方向:自然语言处理北京交通大学2016年9月i致谢,硕±生活即将结束,这段时间里我认识了

4、很多对我有很大帮助的人,他们一不仅教会了我学习和运用知识的能力,也教会了我做人的态度。这期间每点滴的成果和收获都离不开老师的淳谭教导,师兄、师妹的热也帮助,、师姐、师弟一同学朋友的鼓励及家人的支持和陪伴,句我发自内必的和大家说,辛苦你们了,谢谢你们。感谢我的导师徐金安副教授,,感谢您带我走进了自然语言处理研究方向徐老师不仅是我的学业导师,更是我人生前进道路上为我指明道路的长辈,跟徐老一,师相处五年之久,徐老师把我们当成了自己的孩子样,不仅悉必指导同样严、、,踏实做人感谢这五年半来您对我的关屯,格要求

5、我们积极进取。在此衷也和指导一在这里我对您说声,辛苦了,徐老师。陈娃枫副教授和张玉洁教授对于我的科研工作和论文都提出了许多的宝贵意见,她们耐必的帮助和严谨的治学态度让我感触很深,感谢她们的指导和帮助。在实验室学习、工作及撰写论文期间,刘江鸣、吴培吴、王东明、李少童、郑晓康,、刘博佳、周霜霜、明芳、王楠等实验室师兄、师弟、师妹对我论文中的研究和撰写工作给予了热情帮助和指导,感谢他们的无私帮助。最后,我还要由衷地感谢计算机学院的各位老师和同学,感谢他们在学业上和生活上对我的帮助和指导。扫北京交通大学硕±

6、学位论文摘要摘要随着统计技术的发展,大规模的双语语料库是机器翻译和跨语言处理中不可缺少的基本资源。平行双语语料库提供了两种相应语言的丰富的匹配信息。通常情况下,获得高质量和大规模平行双语语料库的难度较大。跨语言信息处理的主一流方法之是利用双语语料库构建互译等价信息对,双语词典或双语命名实体,来支持机器翻译和跨语言信息检索,,。然而现有的双语语料库的资源比较缺乏近年来,从部分双语网站挖掘双语语料库的技术方法。,变得越来越重要特别是一,许多新闻网站包含高质量的多语种的新闻资源。众所周知,每条新闻都是W

7、叙事为主,在新闻翻译成不同语言的情况下,时间、地点、人物和组织机构的信息必须严格匹配一。因此,利用这些信息构建双语相比较的语料库是个很好的方法。,,而传统的语料库的构建方法,通常采用了基于网络结构信息相似度计算一跨语言信息检索和维基百科链接等方法,种基于事件抽。在本文中我们提出了取技术的构建日汉新闻可比的语料库方法,我们通过CRF模型实现分词和。首先。命名实体识别,通过命名实体匹配实现命名实体词典构建我们通过网络爬虫,,,抽取汉语和日语新闻然后通过事件抽取技术结合日汉词典、命名实体词典,和日汉汉字对照表

8、,抽取出特征集,通过计算抽取出的一新闻事件的相似性,,我们实现了种使用日汉新闻事件特征的相似度计算方法并生成篇章对齐抽取结果。最后,我们使用的篇章对齐抽取结果来训练分类器模型,分类器模型用于对日汉新闻篇章

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。