基于隐含狄利克雷分布的多语种文本的自动检测研究

ID：9130006

大小：113.38 KB

页数：11页

时间：2018-04-18

资源描述：

《基于隐含狄利克雷分布的多语种文本的自动检测研究》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、基于隐含狄利克雷分布的多语种文本的自动检测研宄张巍李雯中国海洋大学信息科学与工程学院本文提出无监督的棊于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法，本文介绍一种基于最小描述长度(MDL)的新方法，用collapsedGibbsSampling(CGS)学习算法来训练得到相应的LDA模型。木文采用mitlm工具生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不冋的语种鉴别系统与LDA模型做对比实验。实验选取

2、ECI/MCI标准数据库屮9种欧洲系语言进行鉴别实验，在没有任何标注的情况下，实现了较好的准确率和召回率结果。关键词：多语种识别;无监督;潜在狄利兑莱分配;最小描述长度;CollapsedGibbs抽parisonwithourLDAmodel.TheexperimentchoosesnineeurolanguagesformtheECT/MCTbenchmarktodotheidentificationexperiment,atthesametimethepapermakesadetailedanalyzeon

3、thetrailresults,realizingagoodaccuracyandrecallresultwithoutanyannotation.Keyword：multilingualidentification;unsupervised;LDA;MDL;CollapsedGibbssample;随着现代互联网技术的不断发展，海量的文字信息随之产生，其中会出现不同语种的混杂现象。多语种识别问题在网络文木的自然语言处理领域是普遍存在的。在全球信息化的今天，同一网贞文本中出现两种或者两种以上语言文字的可能性是很大

4、的。如何从混合文本屮找出某种语言或考按照语种分类文本就很有应用价值了。多语言文本识别的研宄侧重于对算法和模型进行改进和优化，目前的主要研宄方式都是利用监督或者半监督的方法进行标注等研宄，而这些方法会存在一些问题。比如当文本中含冇非语料库语言吋，那么用基于这个语料库训练出的模型就不能识别该文本所有的语种。或者训练语料最初就是混合有一些未知语种的，对于这些未知的语种，我们所了解的信息可能十分有限，所以若要构建单语语料库就会变得和当麻烦。比如要从维基百科等页面获取语料构建单语语料库时，通常会混合多种语言。其中有些语言对

5、我们来说是完全陌生的，还有些关系亲近的语言混合在一起，很难用预训练语言识别工具识别出来。现有的监督和引导方法仍难以解决这些问题，因此找到一个完全无监督的语言识别方法是尤其重要的。本文针对这一问题，提出了一种完全无监督的语言识别方法。在该方法中，将基于语料库的N-gram计数作为语言特征文件，不做任何平滑、修剪或插值处理。从语言识别的角度，对隐含狄利克雷分布（简称LDA）主题模型进行了重定义。采用基于LDA模型的CGS抽样(CollapsedGibbsSampling)来实现无监督的语言识别。同时，区別一般的依据网

6、惑度对模型进行筛选的方法，本文将介绍一种基于最小描述长度原则的新方法。1概述文本的多语种识别系统就是对需耍计算机加工的以文本为载体的多种自然语言进行语种判定。系统需要对混杂了各种语言的文本进行语种识别，首先要做的就是收集各种语言文字的文木语料以用来构建语料库，然后提取各种语言的内在结构的规律和特征。每种语言的特征都冇区别于其他语言，对该自然语言进行内在规律的描述就需要建立语言模型£11。本文的主耍任务是对基于LDA的多语种识别模型的构建进行相关研宄。首先选择性能最佳的mitlm工具包(其下载网址为github.m

7、it-nlp/mitlm)生成N-gram计数文件，完成字符级语言模型的训练工作并构建用于多语种识别的字符级语言模型。然后将UngTD语种识别系统、GuessJanguage语种识别系统和本方法进行对比实验，并对实验结果进行丫详细分析。最后，通过基于LDA的CGS来实现无监督的语种识别算法，成功构建了基TLDA模型的字符级统计语言模型，解决了表示问题。实验结果表明:在没有任何标注的情况下，通过改进LDA主题模型网惑度的问题，将基于LDA模型多语种识别方法与最新的监督学习识别工具相比，表现出具有可比性的精确度和召回

8、率。2无监督的语种识别方法2.1LDA模型基本理论为了能够使用无监督的方法鉴别语种，木文釆用主题模型领域中的LDA模型。主题模型是对文档中发现隐藏的抽象主题的一种统计模型方法。lda模型m是主题模型屮最流行的一种，它是对文档集进行聚类的过程，在聚类之前需要说明耍聚成的主题数目是多少。其过程是一种无需监督的学习方式，包含着两个层次的映射:文档主题词汇。如果给定文档集的主题数

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 11



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于隐含狄利克雷分布的多语种文本的自动检测研究

基于隐含狄利克雷分布的多语种文本的自动检测研究

相关文章

相关标签