基于mahout 命令的电影聚类分析与实现

基于mahout 命令的电影聚类分析与实现

ID:21909498

大小:63.50 KB

页数:11页

时间:2018-10-25

基于mahout 命令的电影聚类分析与实现_第1页
基于mahout 命令的电影聚类分析与实现_第2页
基于mahout 命令的电影聚类分析与实现_第3页
基于mahout 命令的电影聚类分析与实现_第4页
基于mahout 命令的电影聚类分析与实现_第5页
资源描述:

《基于mahout 命令的电影聚类分析与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Mahout命令的电影聚类分析与实现:研究使用mahout命令进行电影聚类分析,介绍了聚类算法、分类算法及推荐过滤算法等。同时结合mahout的特点,分别呈现两种算法即K-means与Canopy+K-means的原理,并采用从电影X站中爬取的几十条数据对算法进行测试与实现,两种算法最终都直观地得出此聚类所代表的电影信息。关键词:Mahout;聚类分析;大数据;电影:TP393文献标志码:A:1006-8228(2017)11-54-040引言互联X娱乐在大数据浪潮中迎来了新的挑战,如何在各种X站海量的视频中找到感兴趣的内容就成了新的难题。中国电影产业正处于高速发展期,据中国电影产

2、业《2017-2022年中国电影行业深度调研及投资前景预测报告》数据中显示:国产电影2016年我国共生产故事片772部,动画片49部,科教片67部,记录片32部,特种片24部,总计944部,超过前十年峰值,2016年国产电影放映率仅40%,相比美国100%上映率,资源严重浪费[1]。电影票房惨淡可能导致前期的巨大投入无法收回,因此电影人必须谨慎考虑每个因素对票房的影响,到底什么类型的电影才能卖得好?这是本文数据分析要解决的问题。电影X站上的数据非常庞大,抓取到的文本信息甚至需要以TB为单位来存储,所以在进行大数据量的代码实现之前,要先对小数据集进行测试,以验证算法的可行性。1聚类概述聚

3、类顾名思义是将同一类事物或数据归到同一类型中,同一个类中的对象有很大的相似性,不同类之间的对象有很大的差异性。在机器学习中,要把大量的数据划分为不同的类型通常采用建模的方法。聚类是搜索类的无事先规则与分类的标准的学习过程。与分类不同,聚类是无规则的学习,不依赖预先定义的类或带类标记的实例,由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记[2]。聚类分析是一种探索性的分析,不同分析者对于同一组数据进行聚类分析,所得到的聚类数未必一致。2应用背景本文将从电影X站上爬取到的电影类型匹配到所建数据库中。利用数据清洗中的去重,将没有匹配到任何电影类型信息视为无用文本数据将其删除。

4、最后保留电影名称,匹配到的类型,词与词之间用空格分开。然而这样的文本向量是无法在分布式文件系统上进行处理的,因此需要通过TF-IDF加权的方法,将词文本进行转换,得到可处理的数据向量。TF-IDF是一种统计方法,即一个词语在在一篇文章中或一个文件集或一个语料库中出现次数越多,同时在所有文档中出现次数越少,越能够代表該文章。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF词频(termfrequency)是指某一个给定的词语在该文件中出现的次数[4]。词频公式如图1所示。单纯使用TF还不足,需要进行权重的设计即:一个词语预测主题的能力越强

5、则权重越大,反之权重越小。IDF逆向文件频率(inversedocumentfrequency)就是在完成这样的工作,某一特定词语的IDF,是由总的文件数目除以包含该词语之文件的数目,再将得到的值用log取对数得到。逆文档频率公式如图2所示。在IDF中用一个语料库(corpus)来模拟语言的使用环境。如果一个词很常见,那么分母就越大,逆文档频率就越小越接近0。为避免分母为0用加1法即:所有文档都不包含该词。TF-IDF公式如图3所示。从图3可得出,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比,即提取关键词的算法为计算出文档的每个词的TF-IDF值,然

6、后按降序排列,取排在最前面的几个词。3Mahout算法Mahout算法大致分为聚类、协同过滤和分类三种。聚类分析是当下科学研究中一个很活跃的领域,常用聚类算法有:canopy聚类,k均值算法(k-means),模糊k均值,层次聚类,LDA聚类等[3]。Mahout算法分析有以下几种:3.1K-means聚类在将电影类型向量转换为HDFS可处理的数据后,便可以进行基于文本词频与TF-IDF的k-means聚类。K-means算法是基于划分的聚类方法,首先选择用户指定的参数个数K为初始质心,然后将事先输入的n个数据对象划分为k个聚类以便使所获得的聚类满足[5]:同一聚类中的对象相似度较高,

7、而不同聚类中的对象相似度较低。聚类相似度是利用各聚类中对象的均值所获得一个“中心目标”来进行计算的。通常采用以下方法来实现:①与层次聚类结合;②稳定性方法;③系统演化方法。K-means算法试图找到使平凡误差准则函数最小的簇,当潜在的簇形状是凸面的,簇与簇之间区别较明显,当簇的大小相近时,其聚类结果较理想。该算法时间复杂度为O(tKmn),与样本数量线性相关,所以,对于处理大数据集合,该算法效率高,且伸缩性较好。但该算法除了要事先确定簇数K和初

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。