基于spark和改进的tf-idf算法的用户特征分析

基于spark和改进的tf-idf算法的用户特征分析

ID:22873985

大小:277.83 KB

页数:20页

时间:2018-11-01

基于spark和改进的tf-idf算法的用户特征分析_第1页
基于spark和改进的tf-idf算法的用户特征分析_第2页
基于spark和改进的tf-idf算法的用户特征分析_第3页
基于spark和改进的tf-idf算法的用户特征分析_第4页
基于spark和改进的tf-idf算法的用户特征分析_第5页
资源描述:

《基于spark和改进的tf-idf算法的用户特征分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1弓I言(Introduction)随着互联网的快速发展,用户的数量飞速增加,用户属性更加多元化,大数据的应用与创新成为一个重要的关注点。通过用户的网络行为,分析用户的特征,无论在理论研宄中还是实际应用中,都是一个热门话题。大数据用户特征分析,整合海量用户数据,将用户标签化,使得计算机能够程序化处理与人相关的信息,通过机器学习算法、模型能够“理解”人。深度分析用户特征,在理论研宄上可以更好地挖掘事件关联及预测事件;对于企业而言,无论是搜索引擎、推荐系统、广告投放等各种应用领域,都可以进一步提高获取信息的精准度和效率。而Spark作为一种基于内存计

2、算的分布式计算框架,正受到越来越多大数据研宄者的关注。它提供了一个更快、更通用的数据处理平台,通过将大量数据集计算任务分配到多台计算机上,并且将中间过程的输出结果保存在内存中,不洱需要读取和写入HDFS,以提供高效内存计算,因此Spark可以更好的应用于大数据挖掘和机器学习等算法[1-3]。同时Spark引入了弹性分布式数据集(RDD,ResilientDistributedDataset)。RDD是不可变的、容错的、分布式对象集合,用户可以利用RDD的操作函数并行地操作该集合,以提高计算速度。U前国内用户特征分析的研究主要是对社交网络、微博评论

3、、日志数据等进行特征分析,少部分人则对视频数据进行分析。张岩峰等人通过用户在微博上的言论、行为和社交圈等公开数据信息,提出了对该用户的个性化维度进行分类分析的方法[4];张宏鑫等人从海量移动终端日志数据中挖掘用户特征,提出了一种基于日志数据的用户特征分析方法[5];李冰利用用户观看新闻类视频数据,并通过用户行为分析和建模处理,挖掘用户在类别、国别、年代、热度值、评分等维度的兴趣偏好[6];冯婷婷通过用户浏览视频的行为,利用支持向量机、逻辑回归等分类器进行性別推理P]。国际上,DasS等人通过终端用户的特征标签,提出了基于权重的逻辑回归算法的监督和

4、半监督学习的用户特征分析[8];KimHL等人提出通过分析用户标签,实现以用户兴趣为中心的聚类[9];GulsenE等人利用网络日志数据,使用url、DMOZ和文本内容三个特征数据集,预测性别[10]。目前利用用户观看视频信息分析用户特征的研究成果还比较少。本研宄利用用户观看视频及次数信息,基于朴素贝叶斯分类算法[11-15]和Spark内存计算框架,训练用户性别与年龄区间的分类模型,其中年龄区间分为19岁以下、19一30岁、31—40岁、41一50岁和50岁以上,通过计算每个特征项在各个类别屮的权重优化模型,提高分类结果的正确率。1用户特征分析

5、算法(Usercharacteristicsanalysisalgorithm)2.1贝叶斯定理贝叶斯定理是一则关于随机事件A和B的条件概率的定理。p(A

6、B)表示事件B发生的条件下,事件A发生的概率,其基本公式为P(AB)P(B)贝叶斯定理为2.2朴素贝叶斯分类算法朴素贝叶斯分类算法的基本思想是:对于给定的待分类样本,求得该样本岀现的条件下各个类别出现的概率,取得敁大概率的类别,就认为该样本属于这个类别。朴素贝叶斯分类的定义如下:(1)设x={a1,a2,...,am}为一个待分类项,每个a是x的一个特征项。(2)有类别集合C={c1,c2,.

7、..,cn},计算各类别的先验概率,计算公式为P(c,)=numSamplesLabel(i)sumSamples式中,p(ci)为类别ci的先验概率,numSamplesLable⑴为类别ci的样本数,sumSamples为样本总数。(1)计算每个特征项在各个类别下的条件概率,分力两种模式:①多项式模型numFreqs(jJ)+lambdanumEealures+nufnFreqsLabel(/)式中,p(aj

8、ci)为特征项aj在类别ci下的条件概率,numFreqs(j,i)为特征项aj在类别ci屮出现的次数,numFreqsLabel(i

9、)力类别ci屮所有特征项的总次数,numFeatrues是特征项数,lambda是平滑因子。②伯努利模型numSamples(j,i)+lambdap(a.Ic;)=’mimSamplesIxibel(i)+2式屮,p(aj

10、ci)为特征项aj在类别ci下的条件概率,numSamples(j,i)为类别ci中包含特征项aj的样本数,numSamplesLable⑴力类别ci的样本数,lambda是平滑因子。为防止分子为0,以上平滑因子lambda均取值为1。(1)计算p(c1

11、x},p(c2

12、x),...,p(cn

13、x)每个特征项是条件独立的,根

14、据贝叶斯定理公式(2)推导为帅)=p(xlc妙,)⑹p(-v)顯p{xct)p(c,)^p{axct)p(a2

15、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。