英、汉跨语言话题检测与跟踪技术研究

英、汉跨语言话题检测与跟踪技术研究

ID:34437165

大小:14.15 MB

页数:136页

时间:2019-03-06

英、汉跨语言话题检测与跟踪技术研究_第1页
英、汉跨语言话题检测与跟踪技术研究_第2页
英、汉跨语言话题检测与跟踪技术研究_第3页
英、汉跨语言话题检测与跟踪技术研究_第4页
英、汉跨语言话题检测与跟踪技术研究_第5页
资源描述:

《英、汉跨语言话题检测与跟踪技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学位论文使用授权书根据《中央民族大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位获得者均须向中央民族大学提交本人的学位论文纸质本及相应电子版。本人完全了解中央民族大学有关研究生学位论文收藏和利用的管理规定。中央民族大学拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版);(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆等场所提供校内师生阅读等服务;(3)根据教育部有关规定,中央民族大学向教育部指定单位提交

2、公开的学位论文;(4)学位论文作者授权学校向中国科技信息研究所及其万方数据电子出版社和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对夕}进行信息服务。同时本人保留在其他媒体发表论文的权利。本人承诺:本人的学位论文是在中央民族大学学习期间翎作完成的作品,并己通过论文答辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。本人同意遵守上述规定。(保密的学位论文在解密后适用本授权书,本论文:谚保密,口保密期限至年。月止)

3、作者暨授权人粹修锄20”1年夕月纱日学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者粹7参饧20/弓年步月刀日摘要当今世界已经逐步迈入信息化和数字化时代。根据CNNIC第30次调查报告①显示,截止2012年6月底

4、我国网络用户数量已达到5.38亿,网站数达到250万,网络新闻的用户规模达到3.92亿,网民对网络新闻的使用率高达73.O%。由于网络新闻发布简便快捷等特点,互联网已成为新闻传播的“第四媒体”。普通民众希望从海量网络资源中获取自己感兴趣的新闻话题,同时也希望了解其他国家的新闻话题。因此,对网络新闻话题进行跨语言的检测与跟踪,已经逐渐成为当今国内外学者研究的兴趣之所在。目前的跨语言话题检测与跟踪研究中存在着多个具有挑战性的难题。首先,网络新闻报道文本描述手段匮乏,涉及多语言环境的新闻报道话题描述难度

5、更大;其次,跨语言话题检测与跟踪需要实现多语言环境下的新闻报道处理,怎样跨越语言鸿沟,是首先需要攻克的技术难题之一。再次,如何更好地发展现有技术,并将其应用到话题检测与跟踪研究中,这一问题值得进一步探讨。针对上述问题,希望本文对英、汉跨语言话题检测与跟踪技术的研究能为语言处理相关技术的发展做出微薄贡献,并能为我国多民族语言文本处理提供一定的借鉴。本文的研究主要包括跨语言新闻报道文本分析、跨语言话题模型构建方法、语料库构建方法、跨语言话题检测和跨语言话题跟踪等五。http://www.cnnic.c

6、n/research/bgxz/个部分。首先,笔者从新闻报道的本质因素研究入手,从新闻的认知理解和本身特性这两个角度来分析新闻报道的核心要素。通过分析,笔者认为词汇处理是对文本进行描述的有效途径之一;新闻要素也可作为对报道文本加以区分的手段。其次,本文从“报道.话题.事件"的相互关系出发,阐述了CLTDT研究中新闻报道模型构建的基本思路;分析了当前常用文本表示模型的特点与不足;认为早期文本表示模型缺乏对“报道.话题.事件"之间关系的深入描写和刻画。为了揭示新闻文本中潜藏的话题,本文选取了LSI模型

7、和LDA模型进行文本建模实验,并通过实验对比和分析了两种模型对新闻报道文本的描述能力。在以上理论分析和实验验证的基础上,我们提出在英、汉可比语料库的基础上进行跨语言话题检测与跟踪研究的思路。通过语料采集、元数据处理、新闻事件分类、语料分词处理和标注、命名实体标注等流程和步骤,本文尝试建立“英、汉跨语言新闻报道可比语料库”。我们将以语料库中所包含的英、汉新闻报道文本语料为基础,对跨语言环境中的新闻话题进行检测与跟踪研究。在综合当前跨语言处理技术和LDA模型研究的基础上,结合本文研究目的,笔者提出跨语

8、言联合LDA(CLU-LDA)模型。这一模型既可以对英、汉新闻报道进行事件回顾检测,又可以对新事件进行发现。在跨语言话题跟踪中,通过使用先验的话题模型对新闻报道样本话题进行推断,借助已有先验知识和可比语料库,我们不仅可以在时间序列上描绘出新闻事件的话题发展状况,还可以对特定新闻报道进行有效跟踪。模型关键词:跨语言话题检测;跨语言话题跟踪;可比语料库;LDAABSTRACTTheworldhasgraduallyenteredtheinformationanddigitalera.A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。