基于lda的蒙古文信息检索方法研究与系统实现

基于lda的蒙古文信息检索方法研究与系统实现

ID:35188375

大小:7.47 MB

页数:62页

时间:2019-03-21

基于lda的蒙古文信息检索方法研究与系统实现_第1页
基于lda的蒙古文信息检索方法研究与系统实现_第2页
基于lda的蒙古文信息检索方法研究与系统实现_第3页
基于lda的蒙古文信息检索方法研究与系统实现_第4页
基于lda的蒙古文信息检索方法研究与系统实现_第5页
资源描述:

《基于lda的蒙古文信息检索方法研究与系统实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、C\V六:i填rL、.稱單W,TtVV咬',fu皆.’.i?'‘..全義巧嗜’‘.越气i一,.?'r.马編却fr7f授r-A觀W衣’VK’。一巧廷分W‘辛1,番:W式-'东:进:\%i-I,产.Y''.‘每I皆i"’-,'.。>;..茜气.',#若.rv.'這.''.較^與片勝sW人’妓'V‘、/.n^兔^、1芯哲.;.\X^A'每满;硕学化u^C-:片;乂京婷'....>S瞧齡法与織滅-i的賺觀方娜祭、巧'公'....I矣II^1^w請^kI齡.

2、^>In^P刪^w1側齡由齡參/一‘-.3;■"...-v■\..:’'护凌片^.学科n'於-.!级学计刪师醇与技KV.:学科、计I齡群与技K*.v,'研究方自難齡处理>v.申巧人斯扣巧‘人^一7户t巧^I—..婪/?rr'r.;v-?七r1辜.’‘-、平、.^-.可-/特.?嵌f^.^.、..V嗔每.2■v.二.\讓哥,?,、护、,i^..>;羁备霧c攀章.讀棄每讀/昏.隸.v学校代码:10135TP391论文

3、分类号;号:20134019010研究生类别=全日制减坏範乂聲硕去学化冷文基于LDA的蒙古文信息检索方法研究与系统实现ResearchofMongolianinformationre化ievaimethodbasedontheLDAandsystemimplementation学科口类:^_级学科:计算机科学与技术学科、专业:计算化科学与技术研究方向:自然语言处理申请人姓名:斯日古持指导教师姓名:^一一—_0六年石月-十t曰内蒙古师范大学硕±学位论文

4、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,尽我所知,除了文中特别加L乂标注和致谢的地方外,论文中不包含其他人臣经发表或撰写过的巧究成果,也不包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使用过的批料。本人保证所呈交的论文不侵化国家机密、商业秘密及其他合法权益一。与我同工作的同志对本研究所做的任何贡献均&在论文中作了明确的说明并表示感谢。。签名;曰期;6年^月5曰所P钟累^^关于论文使用授权的说明本学位论文作者完全了解内蒙古师范大学有关保留、使用学位

5、论文的规定:内蒙古师范大学有权保留并向国家有关部口或机构送交论文的复印件和滋盘,义许论文被查阅和借阅,可将学位论文的全部或部分内容编入有关数据库进行检索,可L乂采巧影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文挡的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。签知削巧签名;新防节巧化和i曰期:年月言〇曰内蒙古师范大学硕±学位论文中文摘要随着网络技术的不断发展及信息的全球化,使我们能随时随地从互联网上获取自己所需的信息,带来了极大便利,同时也推动了少数民族语言文

6、字网络化应用的发展,对少数民族语言文字顺应信息时代发展的需求和搜索引擎的发展起着十分积极的作用。蒙古文是我国影响力较高一的少数民族语言文字之,近年来随着网络上蒙古文信息的日益丰富,如何在大量的网络信息资源中快速、准确地找出满足用户需求的蒙古文信息,是当前蒙古文信息检索技术需要迫切解决的问题。传统的蒙古文信息检索系统更多基于关键词匹配进行检索,仅考虑词与词之间的字面匹配,未充分利用词之间语义层面的关联信息。事实上一20%,不同用户使用同样关键词来描述同对象的概率往往小于,并一一意现象较普遍且蒙古文语言表法形式多样,词

7、多意与多词,这使得。查询结果与用户所需信息差距较大,造成检索效果不佳针对上述问题,本文主要从挖掘文档主题语义信息方面寻找解决方LDA主题案,通过模型提取文档中隐含的主题和主题共现关系,从而利用文培的隐含主题语义信息为检索服务,改善检索效果。具体工作说明如下:本文提出了一种A主LD题模型与语言模型相结合的蒙古文信息检索一元和二元语言模型方法。该方法首先对蒙古文文本建立,得到文本的语言概率分布,利用吉普斯抽样方法计算;然后基于LDA建立主题模型模型的参数,挖掘得到文档隐含的主题概率分布,;最后计算出文档主题分布

8、与语言分布的线性组合概率分布,此分布来计算文档主题与查。询关键词之间的相似度,最后返回与查询关键词主题最相关的文档方法中语言模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。