欢迎来到天天文库
浏览记录
ID:11198372
大小:328.00 KB
页数:12页
时间:2018-07-10
《个性化推荐技术综述4-18》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、个性化推荐技术综述杨莉云(广东商学院华商学院,广州511300)摘要:Internet的发展在给用户带来丰富信息资源的同时也给用户快速找到自己需要的信息带来了很大的困难,用户迫切需要一种能够根据自身特点组织和调整信息的服务模式,个性化服务应运而生。本文根据推荐原理的不同分别介绍了基于内容的推荐技术、协同过滤推荐技术、混合推荐技术及其它的推荐技术,分析各种技术的优缺点及适用条件,并对今后个性化推荐技术的研究热点和发展方向进行了展望。关键词:推荐系统;基于内容的推荐;协同过滤;关联规则0引言信息技术的发展和互联网的普及使用户更方
2、便地接触到更多的信息,但用户在享受信息技术带来的便利的同时,也遇到了信息“过载”的问题,用户无法从海量的信息中提取自己所需要的信息。一些搜索引擎通过用户输入关键字可以检索出相关内容,但由于缺乏用户兴趣的知识,会把所有与之相关的信息全部呈现给用户,不能过滤掉用户不感兴趣的信息。也有一些电子商务网站会有“热点推荐”的功能,但是面向所有用户的非个性化推荐。用户如何在一个网站上快速而有效地找到自己所需要的项目和信息?个性化推荐系统是解决这一问题的有效途径。1基于内容的推荐基于内容的推荐起源于信息检索领域,它利用资源和用户兴趣的相似性
3、来过滤信息。首先分析项目的内容,根据用户评价过的项目建立用户的兴趣模型,即用户描述文件。根据用户描述文件的不同又可以分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐。1.1基于向量空间模型的的推荐基于向量空间模型的推荐是基于内容推荐的最常用的方法。该方法将用户描述文件及项目表示成一个维特征向量。向量的每一维由一个关键词及其权重组成。权重可取布尔型和实数值,分别表示了用户是否对某个概念感兴趣及感兴趣的程度[1]。关键词根据推荐项目的不同可以是项目不同的属性值,对文本项目来说,关键词就
4、是从文档中抽取的单词,权重可以通过TF-IDF技术计算得到。对目标用户进行推荐时,将用户描述文件看成目标项目,可采用多种方式(如欧氏距离、余弦相似性、相关相似性等)计算其它项目与目标项目的相似性,按相似性从大到小的顺序将项目输出给用户。1.2基于关键词分类的推荐Mooney提出了基于文档特征词分类的预测思想:将推荐看成是项目分类问题。首先定义一组类(评分),并让用户对一组训练项目进行评价,基于这个评价计算每个关键词属于某个类的条件概率,从而得出用户的特征描述。然后根据这个特征描述计算推荐候选集中各个项目属于某个类的后验概率。
5、最后将这个后验概率作为项目的推荐预测并将具有最高得分的推荐提交给用户[2]。作者简介:杨莉云,女,1984年生,汉族,河南驻马店人,讲师;主要研究方向:电子商务、管理信息系统。用户的兴趣也是通过关键词来表达,与向量空间模型不同,用户描述文件用特征词-类别矩阵来表示,是特征词个数,是类别数,每一个元素表示第个特征12词属于第类的条件概率,项目通过特征词来表达,没有项目描述文件。这种方法的假设条件是,所有的项目都可以通过特征词集合中的特征词来表达,每个特征词出现的概率依赖于项目类别而独立于其它特征词。对给定的项目V,每一个类别的
6、后验概率可以通过如下的贝叶斯规则进行计算:其中为项目的第个特征词,是项目中特征词的数量。前验概率可以被忽略,因为对于任何一个给定的项目其是一个常量。其中的参数按以下方式进行估算:目标用户对每一个训练项目都给予一个评价,于是先验概率可通过下式计算:其中表示被给予评价的所有项目。设表示所有训练项目中的所有不同的特征词,表示训练集中的项目数,对于每一个的类别,表示所有属于该类的的训练项目中的不同特征词的总数,对中的每一个特征词,表示该词语在所有属于该类别的训练项目中的次数,则条件概率可以通过下式来计算:这些参数都通过Laplace
7、估算进行“平滑”以避免对没有出现在有限训练样本中的特征词的零概率估算。文档分类完成后,根据后验概率最高的类目决定项目的预期评价。岑咏华认为这种评价不科学,预期评价应该是所有类目后验概率的数学期望[3]。最后,将预期评价较高的前个项目作为推荐呈现给用户。1.3基于领域分类的推荐为了更好地区别用户兴趣之间的差异,曾春等提出了一种基于概率模型的文本推荐方法,把用户兴趣文件表示为用户对不同领域感兴趣的概率,先建立一个领域分类模型,然后计算所有文档和用户在这个分类模型上的概率分布,用该概率分布来表达文档和用户兴趣[4]。假定领域类型的
8、集合为,其中是领域个数,表示第12个领域,用户描述文件表示为一个条件概率的矢量:,文档和用户兴趣的表达是一致的:。文档对领域的后验概率为其中,,假定文档的所有特征都独立出现,则可以表示为文档所有特征条件概率的乘积:假定n(cj,t)表示特征在类中出现的次数,为中全部特征出现的次数之和,表示
此文档下载收益归作者所有