基于nmf算法的文本聚类研究

基于nmf算法的文本聚类研究

ID:23513185

大小:2.54 MB

页数:99页

时间:2018-11-08

基于nmf算法的文本聚类研究_第1页
基于nmf算法的文本聚类研究_第2页
基于nmf算法的文本聚类研究_第3页
基于nmf算法的文本聚类研究_第4页
基于nmf算法的文本聚类研究_第5页
资源描述:

《基于nmf算法的文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于NMF算法的文本聚类研究ResearchofTextClusteringbasedonNMFAlgorithm作者:巨瑜芳导师:雷小锋副教授中国矿业大学二○一四年六月万方数据中图分类号TP311学校代码10290UDC004密级公开中国矿业大学硕士学位论文基于NMF算法的文本聚类研究ResearchofTextClusteringbasedonNMFAlgorithm作者巨瑜芳导师雷小锋申请学位工学硕士学位培养单位计算机学院学科专业计算机应用技术研究方向数据挖掘答辩委员会主席评阅人二○一四年六月万方数据学位论文使用授权声明本人完全了解中国矿业大学有关保留、

2、使用学位论文的规定,同意本人所撰写的学位论文的使用授权按照学校的管理规定处理:作为申请学位的条件之一,学位论文著作权拥有者须授权所在学校拥有学位论文的部分使用权,即:①学校档案馆和图书馆有权保留学位论文的纸质版和电子版,可以使用影印、缩印或扫描等复制手段保存和汇编学位论文;②为教学和科研目的,学校档案馆和图书馆可以将公开的学位论文作为资料在档案馆、图书馆等场所或在校园网上供校内师生阅读、浏览。另外,根据有关法规,同意中国国家图书馆保存研究生学位论文。(保密的学位论文在解密后适用本授权书)。作者签名:导师签名:年月日年月日万方数据学位论文原创性声明本人郑重声明:所呈交的学位

3、论文《基于NMF算法的文本聚类研究》,是本人在导师指导下,在中国矿业大学攻读学位期间进行的研究工作所取得的成果。据我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年月日61万方数据论文审阅认定书研究生在规定的学习年限内,按照研究生培养方案的要求,完成了研究生课程的学习,成绩合格;在我的指导下完成本学位论文,经审阅,论文中的观点、数据、表述和结构为我所认同,论文撰写格式符合学校的相关规定,同意将本论文作为学位申

4、请论文送专家评审。导师签字:年月日万方数据致谢光阴似箭,转眼间三年的研究生学习就要结束了,这三年的学习虽然辛苦,但是学到了很多知识。在论文完成之际,我要衷心的感谢所有给过我帮助的人!首先,我要深深地感谢我的导师雷小锋在我这三年的研究生学习和生活中给予了无微不至的帮助和关怀,老师渊博的学识、严谨的治学、孜孜不倦的科研精神以及正直纯朴的为人使我终生受益。导师诚信做人、认真做事、严谨做学问的态度将是我终身学习的榜样。导师宽厚待人,特别是要求我们多看书,多学习,有扎实的专业功底,支持我们实现人生的梦想,在此,我想对恩师致以诚挚的敬意和衷心的感谢!我因为有这么一个好导师而感到无比荣

5、幸。同时还要感谢我的师兄庄伟、戴斌、宋丰泰在我的论文发表上给予我的帮助,感谢师妹孙自梅、师弟许多、闫志新,是他们在学习上给予了莫大的帮助。感谢我的室友万玲、别玉玉、梁钰敏陪我度过了这美好的七年的学习生涯。感谢所有给我上过课的和给予过帮助的老师以及计算机11级硕士全班同学。和你们在一起的日子是我这一生中最难以忘怀的日子,也是我生命中最美好的日子。感谢我的父母、弟弟妹妹、我的知己刘继龙,他们在我外地求学的几年中给了我无论是经济上还是精神上莫大的帮助和无私的关爱,他们的爱和支持是我不断进步的源泉和动力。最后要深深地感谢各位评审老师对我的论文提出宝贵的意见,向百忙之中抽出时间评审

6、论文和参加答辩的老师致以深深的谢意!万方数据摘要聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、文本聚类、信息检索、图像分割等领域。近年来,网上电子文档的数量以指数级的速度增长,这使得文本聚类在信息检索和信息管理等方面变得越来越重要。文本数据具有高维、稀疏等特点,这使得许多聚类算法不能直接用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。向量空间模型是常用的文本表示方法之一,由于文本的高维、稀疏等特点,本文将非负矩阵分解算法(Non-negativeMatrixFactorization,简称NMF)应用到文本聚类中

7、去。非负矩阵分解算法是一种比较新的特征抽取方法,由于对分解结果加上了非负的限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,并且它的分解结果具有很高的可解释性。本文首先介绍了非负矩阵分解的基本思想和基本算法,由于非负矩阵分解算法收敛速度较慢、容易收敛到较差的局部最优解,因此本文对NMF算法进行了改进,使用模糊C-均值(FuzzyC-Means,简称FCM)算法对其进行初始化。其次,由于文本集的规模很大,对聚类算法的要求就更为严格,标准的k-means算法需要在每一次迭代中计算每一个样本点到所有聚类中心的距离,这样浪费

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。