基于lda的西里尔蒙古文主题模型研究

基于lda的西里尔蒙古文主题模型研究

ID:35057578

大小:5.27 MB

页数:56页

时间:2019-03-17

基于lda的西里尔蒙古文主题模型研究_第1页
基于lda的西里尔蒙古文主题模型研究_第2页
基于lda的西里尔蒙古文主题模型研究_第3页
基于lda的西里尔蒙古文主题模型研究_第4页
基于lda的西里尔蒙古文主题模型研究_第5页
资源描述:

《基于lda的西里尔蒙古文主题模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一—y--学号C..学号代码:3巧每曲…—??V':编号..TP3S12._分类号^I^kkrINNE反MONGOLIAUNIVERSITY乂'矿.’.’...-.:‘‘.^.‘V;4;U'難細.r,社。爾±擊隹繼褒韻鑽?rmABT恩肢Dlii握]RTATIOM:溝潭基于LDA的西里尔蒙古文'早巧苗是攀.;V主题模型研究.’.:、.辦V'.v-、rv’.'‘''’..>.*^1^..的媒把六背巧.,、.:.'.■-.-■*-、-?■心一-.'.?

2、.-.一-.fc,?V.、..i'、.、、.i...,’'-.'‘..''-一:、一'.L;:■.‘.一-'。—:.节如:-普故,在;'’'‘.卢.'二<饼:V声'.’,:巧碱Xv心W护?'':r壤^心计算机学院V,马g学院:>^苦>禱宗气.指导教师:侯宏旭教授■Z在X—.,?-一一‘’,,山.‘.v;:A?句-^^y::专业it觀郵学呈墅重…,‘_賴?―V;p:;鮮'"\.研究方向..'啤:'-…心:^己鮮蒋玉鹏,._——一研究生一'、?啤"’■巧c>、'转巧,''

3、‘‘.人批若V.軒..却'、、.’.-'?_'?'..’,.??.1、-'V..VV:t.■\'’’'.、.'.一*,,.y'巧.'y託4K苗、'幸!巧.占為v'…'I■.心’".’.;心:V:.片■.'—;1麥.义短;、^追一讀知‘-'一濟’''',.'..—‘非4-'中'^.;二---、叫'娘.;.‘;-一矿.逆,^:嗦巧若■■■-■:^乂心抑:.??.-.产.'?T-?..I..、-.:二.,、.CV,.-'■..J.*:...i

4、''.户V'.*4份,'y学校代码:10126学号:31309002:分类号:TP391.2编号论文题目基于LDA的西里尔蒙古文主题模型研究学院:计算机学院专业:计算机科学与技术<研巧:方向:智能信息处理姓名:蒋玉鹏指导教师:侯宏旭教授2016年4月10日原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成’果。除本文已经注明引用的内容外,论文中不包普其他人已经发表或撰写过的研究成果,也不包含为获得曲盞直去堂及其他教育机构的学位或证书而使用过的材料一。与我同工作的同志

5、对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者齡:师签名:/卢處伯方苗-户.。曰期:/曰期:.'’‘在学期间研究成果使用承诺书’本学位论文作者完全T解学校有关保留,:、使用学位论文的规定即巧蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构,、部口送交学位论文的复印件巧磁盘允许编入有关数据库进行检索,也可W采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间巧得的研究成果(含计算机软件、程序)属于内《古大学计堯机学院。作者今后使用涉及在学期间主要研究內容或研究成果,须征得内

6、,蒙古大学升算机学院就读期间导师的同意:若用于发表论文版权单位必须署名为内蒙古大学计第机学院方可投痛或公开发表。:学位论文作者签名:指导教师签名)^■為日期、日期:龙;()W、/〇^'内蒙古大学硕±论文基于LDA的西里尔蒙古文主题模型研究摘要一主题模型(ToicModel),顾名思义就是对文字中隐含主题的种建模方p法一。主题模型在机器学习和自然语言处理领域中有广泛应用。通常被用来在系列文档中去发现与本文档语义相近的主题。。本文是针对西里尔蒙古文的主题建模通过分析西里尔蒙古文的特点,进行文档预处理。主要进行了词缀切分,命名实

7、体识别和去除停用词。选取基本23词结合命名实体作为特征单元作为进行向量化构建[]PLSA[]。通过比对LSA,和LDAW相关主题模型的性能。分析不同的模型在西里尔蒙古文语料下的建模性能。最终选择LDA作为西里尔蒙古文的主题建模模型EM。模型训练对比了算法和Gibbs采样算法。分析算法的不同性能,并针对西里尔蒙古文的主题建模提出了一种改进的Gibbs采样算法。在改进的G化bs采样算法上训练LDA主题模型,优化了LDA主题模型在西里尔蒙古文上的建模性能。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。