藏汉跨语言话题检测与跟踪

藏汉跨语言话题检测与跟踪

ID:35096720

大小:7.19 MB

页数:70页

时间:2019-03-17

藏汉跨语言话题检测与跟踪_第1页
藏汉跨语言话题检测与跟踪_第2页
藏汉跨语言话题检测与跟踪_第3页
藏汉跨语言话题检测与跟踪_第4页
藏汉跨语言话题检测与跟踪_第5页
资源描述:

《藏汉跨语言话题检测与跟踪》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、152.学校代码:00?个决氏然欠聲MINZUUNIVERSITYOFCHINA硕±学位论文藏庆捧语言语题检測与娘墙姓名:赵倩指导教师:孙媛副教授学院;信息工程学院专业:计算机科学与技术1..1完成日期:206058学位论文使用授权书根据《中央民族大学关于研究生学位论文收藏和利用管理办法》,我校的博±、硕±学位获得者均须向中央民族大学提交本人的学位论文纸质本及相应电子版。本人完全了解中央民族大学有关研究生学位论文收藏和利用的管理规定。中央民族》,目P1大学拥有在《著作权法:学位获

2、得者必须按规定规定范围内的学位论文使用权)(提交学位论文(包括纸质印刷本及电子版);(2)为教学和科研目的,学校可W将公开的学位论文作为资料在图书馆等场所提供校内师生阅读等服务;(3)根据教育部有关规定,中央民族大学向教育部指定单位提交公开的学位论文;4)学位论文作者授权学校向中国学(术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。本人承诺,:本人的学位论文是在中央民族大学学习期间创作完成的作品并己通过一论文答辩致,如因

3、不同造成不良后果由;提交的学位论文电子版与纸质本论文的内容本人自负。本人同意遵守上述规定。(,本论文保密的学位论文在解密后适用本授权书:□不保密,□保密期限至年月止)作者暨授权人签字:■20/若年3月导f日学位论女原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研巧工作所取得的研巧成果,。除文中己经注明引用的内容外本学位论文的研巧成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研巧工作做出贡献的其他个人和集体,均己在文中W明确方式标明。本学位论文原创性声明的

4、法律责任由本人承担。学位论文作者签字:■20/年5月曰<I摘要互联网的高速发展使得网络成为了人们获取信息的主要来源。在网络信息日渐繁杂的背景下,如何使人们快速地获取有用的信息,是当前亟需解决一。的问题作为解决这问题的关键技术,话题检测与跟踪旨在从海量的新闻报道流中发现话题及跟踪己知话题的后续发展和演化,帮助人们应对当今一互联网信息爆炸问题。这研究已经成为自然语言处理和信息处理领域的重、。要研究方向,并且在舆情监控信息抽取等方面有着很大的实用价值全世界各国的交流不断加强使得互联网的语言变得多样化,话题检测与

5、跟踪也不一。仅仅局限对单语言的研巧,专家学者也开始进行跨语言相关技术的研巧本文的主要研究包括:本文提出一种用词向量扩展关键词语义的藏汉跨语言文本相似度计算方法,通过计算藏语新闻报道文本和汉语新闻报道文本的相似度,来构建藏汉可比新闻语料?库。首先对藏语和汉语新闻文本进行预处理,用传统的TF-IDF方法筛选出文本的关键词,然后训练词向量,对关键词进行语义上。的扩展,来实现藏汉跨语言文本相似度的计算实验证明本文的方法提高了。计算的准确率,具有可行性li在藏没可比语料的基础上,构建LDA话题模型,并利用G化bssampng

6、。A进行模型参数的估计,抽取出藏语和汉语话题在LD话题模型生成的文II一-llner距离本话题分布的基础上,提出种基于余弦距离、欧氏距离、Heig和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐,从而构建起跨语言LDA话题模型。在进行相似度判定时,分别用这四种方法为每个藏语话题寻找相似度最大的汉语话题,对每种结果进行分析,并在投票无效时,选择较有优越性的方法作为投票结果。实验证明本文的投票方法在准确率上得到了提升。藏汉话题对齐后,我们构建出跨语言LDA话题模型,该模型能够实现对两种语言己有话题的检测和新话

7、题的检测。跨语言话题跟踪时,通过话题模型对样本新闻报道文本的话题进行推断,实现对特定新闻事件相关话题的热度及趋势发展的跟踪。关键词:跨语言文本相似度计算;LDA话题模型;话题检测;话题跟踪IIIABSTRACTTherapiddevelopmentof也eiWemetmakes化enetworkbecome也emainsourceofaccesstoinformation.Under化ebackgroundof1:heincreasinglymultifariousnetwor

8、kinformationitisnecessartosolvetheroblemh

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。