资源描述:
《GeneBase推荐算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、乐看GeneBase推荐算法一、什么是基于基因的推荐算法我们认为网站中无论是用户还是影片都是有基因的,影片的基因可以来自影片的Tag信息,用户的基因可以来自用户的行为总结,而基于基因的推荐就是以基因为基础,计算不同对象基因间的差异,从而找到相似度高的对象组,进而得到推荐结果。为什么我们要采用基于基因的推荐算法。因为和优秀的UserBase、ItemBase相比,我们面临更严重的网站冷启动和用户选择的稀疏性问题,而在网站初期基于基因的推荐可以更好地解决这两个问题。随着网站慢慢成熟,积攒的信息慢慢增多,我们在得
2、到基因和分析基因方面的策略也会更加灵活,我们可以通过对基因的筛选改变用户的推荐结果,可以用基因作为聚类的依据达到控制存储和运算量瓶颈的目的。因此选择GeneBase为网站推荐引擎的核心,是一个很好的选择。二、初步实现推荐基本上可以总结为数据定义,数据分析,和推荐结果三个关键步骤。体现在基于基因的推荐上,数据定义就确定对象的基因,数据分析就是计算对象与对象间的相似性,推荐结果就是对相似性进行过滤和排序。1、基因定义:一个对象的基因可以被定义为属性与权重的集合T(t1,t2,t3…ti;q1,q2,q3…qi;
3、i=1~n),其中t为一个属性,q为该属性对T的贡献,即权重。如果基因的某些属性具有相同的含义,比如恐怖、惊悚属于电影的类型,而阴暗、明亮属于电影的情绪,便可以将属性分组,即多维度属性,则T可以表示成为:T(v1;t11,t12,t13…t1i;q11,q12,q13…q1i;i=1~nv2;t21,t22,t23…t2i;q21,q22,q23…q2i;i=1~m…)其中vi是某一组属性对T的贡献,即权重。2、计算相似度:相似度计算是推荐的一个重要步骤,计算相似度的方法有很多,比如著名的均方误差评价,相关
4、系数法,余弦相似度法等,但在推荐引擎的计算中采取简单的方法不失为更好的选择,简单的算法既可以保证运算速度,也可以有效节省内存开销。所以我们采用的是绝对距离法,单一维度基因的距离DIS(T1,T2)可以表示为对象U和对象M的相似度SIM(UM)可以表示为:考虑到每个维度v的权重,对象U和对象M的相似度SIM(UM)可以表示为1、推荐结果:有了相似度的计算方法我们初步可以产生如下推荐结果。a、某个用户的推荐影片b、某个用户最喜爱的Tagc、某部影片的相似影片d、某个用户的相似用户e、猜某个用户对影片的打分结果一
5、、优化方案1、关于怎么产生新奇性的推荐结果根据推荐的三个基本步骤,我们首先需要确定数据的输入源,即用户的那些行为影响用户的基因产生。当用户基因产生后,理论上一组基因只产生一个推荐结果。但实际应用中由于业务需要可能会给用户推荐不同风格的电影。比如以准确性为主的推荐,或以新奇性为主的推荐等。这就需要对用户产生不同的基因组或在进行相似性判断的时候对用户基因做过滤。具体到怎么产生新奇性的推荐结果呢?我们可以为基因的集合中引入频度概念,将集合表示为T(t1,t2,t3…ti;q1,q2,q3…qi;f1,f2,f3…
6、fi;i=1~n)。增加频度的意义在于,假设当用户看过n某部电影后,我们会对n部电影的基因的权重做累并归一化,这时权重很高的Tag有可能产生于两种情况,一个是用户看过的某部电影该Tag的权重很高,另一个是用户看过很多部影片都带有较低该Tag但权重较低,这时该Tag的频度很高,于是如果我们剔除掉有很高权重但频度很低的Tag,那么得到的基因我们就认为它是用户喜好的潜藏基因,进而推荐出的电影很有可能就是用户喜欢的,且富有新奇性的电影。2、关于推荐结果分组显示的处理思路显示推荐影片时,有时希望进行分组显示,以便于用
7、户归类。通常是指定一些影片标签(某些维度中的某些标签,如t22,t51等),希望推荐集合M按此条件分组。即呈现为:组:子集合成员t22:m1,m2....t51:m8,m5,......理论上,满足任意标签分组t22或t51,会完全破坏M序列的顺序。根据上面的讨论,该顺序是反映用户喜好程度的。因此,比较好的方式,应该是ti的选择应该尽量满足不破坏M序列的顺序。有两个方法可以达到此目的:a.M序列是根据整个多维度T集合产生的,总是可以从T中选择出一个ti,将其从T中删除后,新产生的M序列的顺序变化最小,即ti
8、的贡献最小。重复此过程,直到只剩下几个标签,则这些标签即为分组。b.直接对M集合进行聚类,指定分组组数。聚类完成时,一个聚类中的影片一定可以找到一个小的公共标签集合(多于一个标签),该集合即为分组。方法二并不保证M序列的顺序,但理论上,这两个方法都是利用最少的标签定义分组,结论应该是相似的。3、关于有效的减少计算量和存储量。随着用户量和影片的增多,相似度的计算量将会是影响实时推荐的一个瓶颈,因此需要对用户在计算相