基于并行ib的多语种文本聚类研究

基于并行ib的多语种文本聚类研究

ID:35064591

大小:2.04 MB

页数:51页

时间:2019-03-17

基于并行ib的多语种文本聚类研究_第1页
基于并行ib的多语种文本聚类研究_第2页
基于并行ib的多语种文本聚类研究_第3页
基于并行ib的多语种文本聚类研究_第4页
基于并行ib的多语种文本聚类研究_第5页
资源描述:

《基于并行ib的多语种文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201312172027密级硕士学位论文基于并行IB的多语种文本聚类研究作者姓名:卢耀恩导师姓名:叶阳东教授学科门类:工学专业名称:计算机软件与理论培养院系:信息工程学院完成时间:2016年5月AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchonMultilingualDocumentsClusteringbasedonParallelInformationBottleneckByYaoenLu

2、Supervisor:Prof.YangdongYeComputerSoftwareandTheorySchoolofInformationEngineeringMay2016学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:日期:年月日学位论文使用授权声明本人在导师指

3、导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者:日期:年月日摘要摘要随着互联网的快速发展和全球化趋势的进一步深

4、化,文本数据呈现大规模的增长。同时,自动翻译系统的兴起使得文本数据很容易被翻译成其它语言,从而促进了多语种文本数据的产生,为多语种文本聚类提供了数据支撑。传统的文本聚类算法在对多语种文本数据聚类时,仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息,使数据模式结构中包含单个语种信息带来的偏见。IB方法是一种基于率失真理论的数据分析方法,在对高维稀疏数据进行聚类时具有独特的优势。该方法将数据模式的提取视为一个数据压缩的过程,即将数据对象压缩到一个“瓶颈”变量中,同时最大化地保存数据

5、中的信息量,可有效地发现数据对象间所蕴含的内在模式。目前IB方法已在众多领域中取得成功的应用。多元IB方法是对IB方法的扩展,在处理多语种文本时有着独特的优势,多元IB方法主要有并行IB和对称IB。针对传统文本聚类算法在处理多语种文本时仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息的问题,本文提出一种基于并行IB的多语种文本聚类算法:ML-PIB算法。该算法在对多语种文本数据进行聚类分析时,能够同时考虑多个语种的语种信息,进而有效挖掘各个不同语种信息之间蕴含的关联,有效提高聚

6、类质量。该算法首先针对不同语种,构建相应的相关变量;其次,使用互信息度量多个语种特征信息之间的信息量;最后,采用基于信息论的优化方法来优化其目标函数,保证收敛到局部最优解。通过在ReutersMultilingual数据集上实验结果表明:ML-PIB算法能够有效处理多语种文本的多个语种信息,相对于面向单一语种的sIB算法和传统k-means算法、PLSA算法、LDA算法,ML-PIB算法都得到了更高的聚类精度和标准化互信息,同时ML-PIB算法与现有的5种多语种文本聚类算法相比也具有明显优势。关键词:IB

7、理论;并行IB;多语种;文本聚类;互信息IAbstractAbstractThefastdevelopmentofInternetandfurther-deepenedglobalizationtrendmakenetworkdatagrowrapidly.Inparticularly,therearealargeamountofmultilingualdocumentsdatainthenetworkduetotheadventofmachinetranslationsystems.Fortheclus

8、teringofmultilingualdocumentsdata,traditionaltextclusteringalgorithmonlyconsidersdifferentlanguagesinformationofmultilingualdocumentsdata,andthepotentialrelationsbetweendifferentlanguagesisignored,resultingintheprej

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。