一种面向大数据的文本聚类算法

一种面向大数据的文本聚类算法

ID:35035920

大小:2.34 MB

页数:58页

时间:2019-03-16

一种面向大数据的文本聚类算法_第1页
一种面向大数据的文本聚类算法_第2页
一种面向大数据的文本聚类算法_第3页
一种面向大数据的文本聚类算法_第4页
一种面向大数据的文本聚类算法_第5页
资源描述:

《一种面向大数据的文本聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP301.6学号0701z1201301学校代码10513密级硕硕士士学学位位论论文文一种面向大数据的文本聚类算法学位申请人:崔慧岭学科专业:信息计算与智能系统指导教师:柯宗武教授答辩日期:2016年5月13日AThesisSubmittedinFulfillmentofRequirementsfortheDegreeofMastersofAppliedMathematicsOneofTextClusteringAlgorithmBasedonBigDataCandidate:CuiHuilingMajor:Inform

2、ationComputingandIntelligentSystemSupervisor:KeZongwuHubeiNormalUniversityHuangshi435002,P.R.ChinaMay,2016原创性寅明本人声明所呈交的学位论文是我个人在导师指导下进行的研巧工作及取得的研巧成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中明确方式标明。本人完全意识到本声明的法结果由本人承担。学位论文作者签名:

3、■曰期:方/知5月曰学位论文版权使用授权书、本学位论文作者完全了解学巧有关保留使用学位论文的规定,即;学校有权保留并向国家有关部n或化构送交论文的复印件和电子版,允许论文被查巧和借阅。本人授枚湖北师范学院可W将本学位论文的全部或部分内容编入有关数据、库进行检索,可1^采用影印缩印或扫描等复制手段保存和汇编本学位论文。保密口。,在年解密后适用本授权书"不保密2(^""JV)(请在lil上方框内打;学位论文作者签名;指导教师签名抑条或一曰期;>月曰曰期;/炸办/保功/征S;/屋

4、,一种面向大数据的文本聚类算法摘要:近年来随着因特网、物联网和云计算的迅速发展,工业界、商业界每一领域中的数据都呈现出爆炸式增长。因此大数据随之成为一个世界范围的热议话题,受到包括学术界、工业界和政府的广泛关注。大数据蕴藏有巨大价值,而大数据不同于传统结构化数据,要从中挖掘出有用信息,需要新的算法框架和处理系统。围绕社交网站的数据挖掘与分析,本文主要研究海量文本数据的聚类算法。谱聚类是最流行的新兴聚类算法之一,并且具有广泛的应用。但是,谱聚类算法的运行时间是输入数据规模的三次方,这使得它不能被应用于大规模文本数据集上。近年来,有

5、人在努力克服这些扩展性问题,然而,还没有一个令人满意的解决方案。通过深入研究大数据的概念、特点、价值及挑战,大数据处理平台Hadoop的重要构成部分HDFS、MapReduce框架和Mahout概念、特点及发展,及谱聚类算法、K-means算法原理和并行谱聚类算法的实现,本文搭建了Hadoop集群,对Mahout中谱聚类算法并行实现框架进行改进给出了一个新的谱聚类算法,这个算法可以有效地实现MapRedude并行化,最后在Hadoop集群上进行实验,考察其处理大规模文本集的有效性以验证算法有效性。实验结果证明这个算法是有效的。关

6、键词:大数据;谱聚类;K-means;MapReduce;Mahout;HadoopIAbstract:Inrecentyears,withtherapiddevelopmentoftheInternet,Internetofthingsandcloudcomputing,thedataineveryfieldofindustryandcommercehasshownexplosivegrowth.Asaresultbigdatahasbecomeaworldwidehottopic,whichiswidelyconcerned

7、byacademia,industryandgovernment.Bigdatacontainhugevalue,whichisdifferentfromthetraditionalstructureddata.Diggingouttheusefulinformationneedsforanewalgorithmframeworkandprocessingsystem.Thispapermainlystudiestheclusteringalgorithmofmassivetextdataintermsofthedatamini

8、ngandanalysisofsocialnetworkingsites.Spectralclusteringisoneofthemostpopularclusteringalgorithms,andithasawiderangeofapplications.H

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。