基于内容的个性化推荐.doc

基于内容的个性化推荐.doc

ID:55902646

大小:187.55 KB

页数:6页

时间:2020-06-13

基于内容的个性化推荐.doc_第1页
基于内容的个性化推荐.doc_第2页
基于内容的个性化推荐.doc_第3页
基于内容的个性化推荐.doc_第4页
基于内容的个性化推荐.doc_第5页
资源描述:

《基于内容的个性化推荐.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、CollaborativeFilteringRecommendations(协同过滤,简称CF)是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-basedRecommendations(CB)基本也会是其中的一部分。CB应该算是最早被使用的推荐方法吧,它根据用户过去喜欢的产品(本文统称为item),为用户推荐和他过去喜欢的产品相似的产品。例如,一个推荐饭店的系统可以依据某个用户之前喜欢很多的烤肉店而为他推荐烤肉店。CB最早主要是应用在信息检索系统当中,所以很多信息检索及信息过滤里的方法都能用于CB中。

2、CB的过程一般包括以下三步:1.ItemRepresentation:为每个item抽取出一些特征(也就是item的content了)来表示此item;2.ProfileLearning:利用一个用户过去喜欢(及不喜欢)的item的特征数据,来学习出此用户的喜好特征(profile);3.RecommendationGeneration:通过比较上一步得到的用户profile与候选item的特征,为此用户推荐一组相关性最大的item。[3]中对于上面的三个步骤给出一张很细致的流程图(第一步对应着ContentAnalyzer,第二步对应着ProfileLearner,第三步对

3、应着FilteringComponent):举个例子说明前面的三个步骤。对于个性化阅读来说,一个item就是一篇文章。根据上面的第一步,我们首先要从文章内容中抽取出代表它们的属性。常用的方法就是利用出现在一篇文章中词来代表这篇文章,而每个词对应的权重往往使用信息检索中的tf-idf来计算。比如对于本文来说,词“CB”、“推荐”和“喜好”的权重会比较大,而“烤肉”这个词的权重会比较低。利用这种方法,一篇抽象的文章就可以使用具体的一个向量来表示了。第二步就是根据用户过去喜欢什么文章来产生刻画此用户喜好的profile了,最简单的方法可以把用户所有喜欢的文章对应的向量的平均值作为此

4、用户的profile。比如某个用户经常关注与推荐系统有关的文章,那么他的profile中“CB”、“CF”和“推荐”对应的权重值就会较高。在获得了一个用户的profile后,CB就可以利用所有item与此用户profile的相关度对他进行推荐文章了。一个常用的相关度计算方法是cosine。最终把候选item里与此用户最相关(cosine值最大)的N个item作为推荐返回给此用户。接下来我们详细介绍下上面的三个步骤。一.ItemRepresentation真实应用中的item往往都会有一些可以描述它的属性。这些属性通常可以分为两种:结构化的(structured)属性与非结构化

5、的(unstructured)属性。所谓结构化的属性就是这个属性的意义比较明确,其取值限定在某个范围;而非结构化的属性往往其意义不太明确,取值也没什么限制,不好直接使用。比如在交友网站上,item就是人,一个item会有结构化属性如身高、学历、籍贯等,也会有非结构化属性(如item自己写的交友宣言,博客内容等等)。对于结构化数据,我们自然可以拿来就用;但对于非结构化数据(如文章),我们往往要先把它转化为结构化数据后才能在模型里加以使用。真实场景中碰到最多的非结构化数据可能就是文章了(如个性化阅读中)。下面我们就详细介绍下如何把非结构化的一篇文章结构化。如何代表一篇文章在信息检

6、索中已经被研究了很多年了,下面介绍的表示技术其来源也是信息检索,其名称为向量空间模型(VectorSpaceModel,简称VSM)。记我们要表示的所有文章集合为,而所有文章中出现的词(对于中文文章,首先得对所有文章进行分词)的集合(也称为词典)为。也就是说,我们有N篇要处理的文章,而这些文章里包含了n个不同的词。我们最终要使用一个向量来表示一篇文章,比如第j篇文章被表示为,其中表示第1个词在文章j中的权重,值越大表示越重要;中其他向量的解释类似。所以,为了表示第j篇文章,现在关键的就是如何计算各分量的值了。例如,我们可以选取为1,如果词出现在第j篇文章中;选取为0,如果未出

7、现在第j篇文章中。我们也可以选取为词出现在第j篇文章中的次数(frequency)。但是用的最多的计算方法还是信息检索中常用的词频-逆文档频率(termfrequency–inversedocumentfrequency,简称tf-idf)。第j篇文章中与词典里第k个词对应的tf-idf为:其中是第k个词在文章j中出现的次数,而是所有文章中包括第k个词的文章数量。最终第k个词在文章j中的权重由下面的公式获得:做归一化的好处是不同文章之间的表示向量被归一到一个量级上,便于下面步骤的操作。1.最近邻方法(k

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。