欢迎来到天天文库
浏览记录
ID:22681007
大小:59.97 KB
页数:7页
时间:2018-10-30
《推荐算法进展概述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、推荐算法进展概述潘子炀浙江省杭州第二中学摘要:推荐系统,是种依赖数据、算法等多部分的系统工程。它可以提供用户需求信息,为用户进行个性化推荐。它的优势是能主动分析用户很为数据,完成推荐。本文首先对推荐系统的兴起、发展等背景作介绍,将主流的推荐算法进行比对,分别概述其主要思想,及关键要素,然后介绍了推荐领域的研宂动态。目前主要的推荐技术包括:协同过滤推荐、基于内容的推荐、基于知识的推荐、混合推荐等技术。它们针对不同的目标、数据内容,各有特点。目前解决推荐问题的方法主要是协同过滤方法和基于内容方法。本文依据文献对主要推荐算法原理及实现进行说明。然后比对丫
2、这些推荐方法的优点、缺点。关键词:协同过滤;基于用广;基于物品;基于内容;作者简介:潘子炀,杭州二中。一、背景推荐系统的基本作用和搜索引擎一样,是服务用户,为其索引出有用信息的媒介。但相比搜索引擎,它不需要用户显式提出目标需求,而是通过对用户的行为数据进行分析,依据特定算法和指标,建立用户模型,为用户推荐。目前,推荐系统已经逐渐应用在生涯中的诸多领域,比如电影、咅乐、电商、阅读、广告等。主要的推荐算法有:协同过滤推荐、棊于内容的推荐、棊于知识的推荐和混合推荐等。推荐系统最常用的一种方法是协同过滤一一由用户评价的物品信息,分析用户偏好、物品与其他物品
3、的关联。基于内容的推荐,通过物品内容预测用户偏好。效果对比上,当用户行为数据有效时,协同过滤效果较基于内容的推荐更优。但协同过滤存在冷启动问题一一无法推荐之前未曾使用的新物品、使用数据少的小众物品;基于内容的方法没有冷启动问题,但需要很多内容信息。二、推荐方法概述(一)协同过滤协同过滤是根据目标用户的邻居的偏好来推荐的,它先根据目标用户的使用习惯找到相似邻居,然后把邻居用户喜欢的物品推荐给目标用户。它会基于相似度衡量目标用户的近邻(如果U对用户V在其他物品评分值相似,则用户U和用户V对于新物品i的评分也相似);或根据用户过去的偏好预测未来偏好。从文
4、献可以知道,协同过滤方法主要有基于近邻和基于模型这两种方法。前者是使用己有数据进行预测,而后者使用评分来预测模型。1、基于近邻。在基于内存或基于启发式协同过滤方法中,系统中的u-i项(评分)可直接对新物品评分。它可由两种方法实现:基于用户的方法、基于物品的方法。(1)基丁•用户算法。基丁•用户的推荐系统有GroupLens、Ringo等,它可以根据对该物品i评价过的、和u有和似评价的其他用户v(近邻),评估U对物品i的偏好程度。相似度的度量有欧氏距离、Pearson相关系数等。侶可能存在流行物品,所有人都喜欢它,为此,Breeseetal.(199
5、8)指出,可通过对物品评分变换,对热门物品进行惩罚。近邻选择时,只关心与FI标用户关系密切的邻居通常会定义一个相似度阈值(thresholdfiltering)来限定个数。阈值过大会导致近邻少,无法预测许多物品(即覆盖率下降):反之,则推荐不准确。基于用户的最近邻推荐应用领域很多,但针对大量潜在近邻(评分矩阵巨大),计算预测值的实时性差。因此,衍生了基于物品的最近邻推荐方法。(2)基于物品算法。基于用户u为和i相似的物品评分,来预测u对i的评分。其中,相似物品被用户评价且有相似特性的物品。如下为余弦相似度公式:其屮,表示物品a和b的评分向量。(3)
6、基于用户和基于物品对比。准确性:基于用户方法取决于用户的近邻数的相似度计算,对比不同用户对同一物品的评分;基于物品方法,通过比较同一个用户对不同物品的评分。因而用户数少于物品数(如论文)时,基于用广方法更好;用户数大于物品数(如电商)时,基于物品的方法更准确。稳定性:两种方法依赖于用户、物品的相对规模:如果用户数量变化相对物品稳定(如文字推荐),可使用基于用户;相反,可使用基于物品方法。2、基于模型基于模型方法的主要思想是使用属性构建用户和物品间的关联,其中属性代表在系统中用户和物品的潜在特征(如用户偏好类别、物品所属类别)。可以解决许多推荐问题。
7、如贝叶斯聚类(BayesianClustering)、潜在语义分析(LatentSemanticAnalysis)、最大熵(MaximumEntropy)、支持向量机(SVM)、奇异值分解(SVD)和玻尔兹曼机(BoltzmannMachines)等o(二)基于内容的推荐棊于内容方法的思想是,根据物品内容来计算物品共同特性,推荐相似度较大的新物品。它通过向量来存储物品的信息。Saltern提出,如果物品的内容是文本(如新闻、文档),就包含内容的有效关键字的词频-逆文档频率(TermFrequency-InverseDocumentFrequency
8、,TF-IDF)的权重值。u对应的偏好属性*、可通过物品集合L获得。Rocchio提出算这些偏好的算法,已经用于多个基于内
此文档下载收益归作者所有