欢迎来到天天文库
浏览记录
ID:35096720
大小:7.19 MB
页数:70页
时间:2019-03-17
《藏汉跨语言话题检测与跟踪》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、152.学校代码:00?个决氏然欠聲MINZUUNIVERSITYOFCHINA硕±学位论文藏庆捧语言语题检測与娘墙姓名:赵倩指导教师:孙媛副教授学院;信息工程学院专业:计算机科学与技术1..1完成日期:206058学位论文使用授权书根据《中央民族大学关于研究生学位论文收藏和利用管理办法》,我校的博±、硕±学位获得者均须向中央民族大学提交本人的学位论文纸质本及相应电子版。本人完全了解中央民族大学有关研究生学位论文收藏和利用的管理规定。中央民族》,目P1大学拥有在《著作权法:学位获
2、得者必须按规定规定范围内的学位论文使用权)(提交学位论文(包括纸质印刷本及电子版);(2)为教学和科研目的,学校可W将公开的学位论文作为资料在图书馆等场所提供校内师生阅读等服务;(3)根据教育部有关规定,中央民族大学向教育部指定单位提交公开的学位论文;4)学位论文作者授权学校向中国学(术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。本人承诺,:本人的学位论文是在中央民族大学学习期间创作完成的作品并己通过一论文答辩致,如因
3、不同造成不良后果由;提交的学位论文电子版与纸质本论文的内容本人自负。本人同意遵守上述规定。(,本论文保密的学位论文在解密后适用本授权书:□不保密,□保密期限至年月止)作者暨授权人签字:■20/若年3月导f日学位论女原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研巧工作所取得的研巧成果,。除文中己经注明引用的内容外本学位论文的研巧成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研巧工作做出贡献的其他个人和集体,均己在文中W明确方式标明。本学位论文原创性声明的
4、法律责任由本人承担。学位论文作者签字:■20/年5月曰<I摘要互联网的高速发展使得网络成为了人们获取信息的主要来源。在网络信息日渐繁杂的背景下,如何使人们快速地获取有用的信息,是当前亟需解决一。的问题作为解决这问题的关键技术,话题检测与跟踪旨在从海量的新闻报道流中发现话题及跟踪己知话题的后续发展和演化,帮助人们应对当今一互联网信息爆炸问题。这研究已经成为自然语言处理和信息处理领域的重、。要研究方向,并且在舆情监控信息抽取等方面有着很大的实用价值全世界各国的交流不断加强使得互联网的语言变得多样化,话题检测与
5、跟踪也不一。仅仅局限对单语言的研巧,专家学者也开始进行跨语言相关技术的研巧本文的主要研究包括:本文提出一种用词向量扩展关键词语义的藏汉跨语言文本相似度计算方法,通过计算藏语新闻报道文本和汉语新闻报道文本的相似度,来构建藏汉可比新闻语料?库。首先对藏语和汉语新闻文本进行预处理,用传统的TF-IDF方法筛选出文本的关键词,然后训练词向量,对关键词进行语义上。的扩展,来实现藏汉跨语言文本相似度的计算实验证明本文的方法提高了。计算的准确率,具有可行性li在藏没可比语料的基础上,构建LDA话题模型,并利用G化bssampng
6、。A进行模型参数的估计,抽取出藏语和汉语话题在LD话题模型生成的文II一-llner距离本话题分布的基础上,提出种基于余弦距离、欧氏距离、Heig和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐,从而构建起跨语言LDA话题模型。在进行相似度判定时,分别用这四种方法为每个藏语话题寻找相似度最大的汉语话题,对每种结果进行分析,并在投票无效时,选择较有优越性的方法作为投票结果。实验证明本文的投票方法在准确率上得到了提升。藏汉话题对齐后,我们构建出跨语言LDA话题模型,该模型能够实现对两种语言己有话题的检测和新话
7、题的检测。跨语言话题跟踪时,通过话题模型对样本新闻报道文本的话题进行推断,实现对特定新闻事件相关话题的热度及趋势发展的跟踪。关键词:跨语言文本相似度计算;LDA话题模型;话题检测;话题跟踪IIIABSTRACTTherapiddevelopmentof也eiWemetmakes化enetworkbecome也emainsourceofaccesstoinformation.Under化ebackgroundof1:heincreasinglymultifariousnetwor
8、kinformationitisnecessartosolvetheroblemh
此文档下载收益归作者所有