欢迎来到天天文库
浏览记录
ID:26791481
大小:53.00 KB
页数:6页
时间:2018-11-29
《标签在推荐系统中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、标签在推荐系统中的应用摘要:随着大数据时代的到来,收集信息不再是主要问题,如何根据信息更及时地作出更好的决策才是关键的问题。个性化推荐系统为这一问题的解决提供了重要方向。本文主要分析标签在推荐系统中的应用并指出其优势和在应用中所遇到的困难及如何得到更合理的推荐结果。中国4/vie 关键词:推荐系统标签用户 中图分类号:TP391文献标识码:A:1003-9082(2016)11-0014-01 一、标签概述 推荐系统的目的是为用户过滤庞杂繁杂的信息,找到符合其喜好的资源。标签是从资源的内容中提取的、对资
2、源进行概括总结的关键词,相较于资源本身,信息量增加,体量减少,减少了用户的负担。利用标签能够在很大程度上减轻推荐系统的工作量,提高其准确度。 二、标签在推荐系统中的应用 1.标签获取和应用 1.1专家标注法 很多推荐系统在建立时,既没有用户的行为数据,也没有充足的物品内容信息来计算准确的物品相似度。为了在初期提升用户体验,很多系统都利用专家进行标注。这方面的代表是个性化网络电台Pandora。雇用一批专家对资源进行标注,可以将资源用多种向量表示,然后通过常见的向量相似度算法计算出其相似度。采用专家标注法
3、的优点是可以有一组受到广泛接受的标签库以供选择。但是需要大量的人力操作,耗时多且成本高。 1.2大众分类法 利用用户产生内容的方法,让普通用户自由标注,如Last.fm音乐电台,豆瓣等。面对数量众多且难以进行分析的大量资源,这些网站允许用户对资源进行随意标注,获得资源的相关信息。然后分析用户的标注行为,提取用户关系网络,从关系网络中分析凝聚子群,进行个性化信息推荐模型的研究。将标签作为用户和资源联系的中间节点,建立用户-标签-资源之间的三维关系图,计算其关联度,从而预测用户对于新资源的兴趣度,最终产生推荐结
4、果。 1.3内容分析法 对于具体的物品,可从物品本身利用数据挖掘技术自动提取其特征作为标签。如对于一个新文本来说,首先将其与已有文本对比计算相似度,然后根据相似度选取已有文本的标签作为新文本的标签。 2.应用中的优势 2.1形式简单,易于处理 标签是对物品特征属性的简要描述,过滤其不重要信息或者用户不关注的信息,在某种程度上降低了信息过载现象。标签将网页、图片、音频、视频等非结构化数据资源转化为更加容易处理的文本,将文本内容进行压缩等,方便处理。 2.2易于获得 通过内容分析法能够对大量数据进行自
5、动化处理,减少人工负担,同时避免了因新资源加入产生的冷启动问题。通过大众分类法运用大量用户的群体智慧来标注物品,相较于跟踪用户的历史行为和收集用户个人注册信息,降低了系统负担而且更具合理性,不会侵犯用户的隐私。 2.3提高了推荐结果的多样性 标签具有可重复性和广泛代表性。用户在短时间内不会重复购买同一种商品,但是对于标签,用户都有自己的喜好和使用习惯,会为不同资源使用同一个标签。一个标签可以广泛用于许多物品,可以跨越不同领域。所以用户选择了某一标签,可以将推荐结果推广到各个领域。 2.4利用标签做推荐解释
6、,更容易获得用户信任 对于目前的大量推荐算法,用户没有了解的需求和不愿意浪费时间去了解,用户也就难以真正信任个性化推荐系统所做的推荐。用户所需要的是直观的感受。用户喜欢明星,相信明星,于是就相信其代言的公司和产品。将这一点运用到推荐当中来,一个很重要的桥梁就是人。例如在大众分类法中,标签来源于用户本身及其他用户对于该用户共同兴趣的物品所做的标注,容易得到用户认可。 3.应用中的困难 3.1歧义、多义性 在大众分类法中,用户标注目的主要有以下三点:一是对资源进行分类,方便将来的查找;二是表达对资源的看法。
7、这是在目前较为流行的方式,用户乐意在通过社交网络中将自己的想法分享。三是生产者介绍产品,方便让市场中的潜在购买者了解。在这三点的驱动之下,标签被大量创造,而标签的歧义和多义性正是由于三者目的的差别,个人的知识层次和所处环境的差别所造成的。从客观上来说,文字语言具有一词多义,多词一义的特点,也是大众分类法难以避免的困境。如果标签得不到合理处理,那么基于标签的推荐系统必然也是低效的。 3.2分布稀疏 在大众分类法和专家标注法中,对于新加入的资源,标签数量比较少,会出现冷启动问题,难以准确描述资源。而且让用户自行
8、输入标签无疑会增加用户标注的负担,如果用户本身没有标注的习惯和动力,就很有可能不参与标注。对于标签本身来说,近义词的存在也让标签分布分散。 3.3标签噪声 标签的质量直接影响到推荐系统的性能和推荐结果的准确性。利用内容分析法产生的标签较为集中,分辨度不高。一个文本对应的标签数可能比较多,一个标签对应的资源可能非常多。而大众分类法也难以避免一些用户出于各种目的故意打出与事实不符的标签
此文档下载收益归作者所有