新闻个性化推荐的模型设计

新闻个性化推荐的模型设计

ID:24003014

大小:50.00 KB

页数:4页

时间:2018-11-12

新闻个性化推荐的模型设计 _第1页
新闻个性化推荐的模型设计 _第2页
新闻个性化推荐的模型设计 _第3页
新闻个性化推荐的模型设计 _第4页
资源描述:

《新闻个性化推荐的模型设计 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、新闻个性化推荐的模型设计随着X络信息化的飞速发展,信息的数量和种类均呈爆炸式增长,逐步出现信息过载和泛滥的现象,用户难以从海量信息中及时找到自己关注的内容。个性化推荐理论和技术的诞生,为解决该问题提出了很好的解决办法,它是一种崭新的智能、高效的信息服务方式,通过分析用户的历史行为数据,预测用户可能感兴趣的需求,准确为用户提供个性化的信息推荐服务。新闻内容模型新闻的文本特征可以通过新闻隐藏的主题、关键词、标签来表示,新闻主题聚类通过LDA挖掘得到。通过LDA主题模型训练出新闻主题分类,以及每篇文本的主题分布和主题的词分布。实现步骤为先做分词处

2、理,然后生成向量,根据向量去做主题聚类。数据预处理。新闻文本是以X页标签的形式存在的,由于格式、规范等各种不一致,通过文本预处理,转化为计算机可直接处理的规范化格式。最关键的步骤就是分词,提取有价值的词,去除停用词,降低数据维度,为后续的文本分类工作减轻压力,提高效率。中文分词相对英文分词要复杂,本文通过现有CJK规范为每个词之间插入空格,然后通过Mahout自带英文分词技术完成该过程。LDA主题聚类模型。LDA是一个三层贝叶斯模型,主题的分布和词的分布不是确定的,是一种对文本进行无监督聚类的方法。假设文本是由一系列潜在主题随机混合而成,主

3、题是由词汇表中所有的词混合而成,不同文本的主要区别在于其主题混合比例不同。在训练集合中,通过LDA模型计算每个文本都包含一个主题数维度的向量,这个向量表示每个主题在该篇文章中的出现概率,概率越高,这个主题在该文章中的权重就越大。并通过对每个词在主题中的概率计算,完成关键词的概率分布。根据以上原理计算入库新闻的主题分布,表示为:z={(主题1,概率1),(主题2,概率2),…,(主题p,概率p)}混合模型生成。为了更准确计算新闻的相似性,引入关键词和标签属性生成向量。关键词可以通过TF-IDF(词频-逆向文档频率)的方法,计算特征词权重,表示

4、为:d={(关键词1,概率1),(关键词2,概率2),…,(关键词n,概率n)},n代表所有关键词的个数。标签属性按照栏目类别划分,栏目的新闻内容具有一定的相似性,标签向量表示为:t={标签1,标签2,…,标签m},m代表所有标签的个数。结合以上内容设计新闻内容的混合模型如下所示:M=k1zi+k2dj+k3tm(1)其中,k1代表主题模型计算得信息主题特征的权值,k2代表关键词特征的权值,k3代表标签的权值。用户兴趣模型将用户的隐含主题偏好与关键词兴趣相结合,考虑新闻的时效性,构建完整的个性化兴趣偏好的用户兴趣模型,准确、完整的用户兴趣模

5、型可以很好的提高推荐准确性。用户兴趣模型表示方式为:F={Z,K,T(}2)其中,Z、K、T分别表示用户主题偏好向量、关键词权值序列和新闻标签关注程度,取值范围为0到1的实数。下面对模型的主要内容进行介绍:(1)用户主题偏好。用户主题偏好通过访问过的新闻主题聚类得出,由一组向量表示:Z={主题1,主题2,…,主题y},其中,y代表所有主题的个数,属性值代表用户对各主题的偏好程度。(2)关键词权值序列。用户在浏览新闻的过程中,会对含有某些关键词的新闻感兴趣,通过向量空间和TF-IDF计算关键词的序列及其权值,表示为:K={(关键词1,概率1)

6、,(关键词2,概率2),…,(关键词j,概率j)}其中,j代表用户感兴趣的关键词的个数,并用权值表示用户对各关键词的感兴趣的程度。(3)新闻标签关注程度。用户对新闻用户在面对海量新闻时,个性化的推荐系统可以通过分析用户行为来预测用户的阅读偏好,使其能够尽快地找到用户可能感兴趣的信息。本文围绕新闻推荐系统中文本内容挖掘和用户兴趣表达的问题,应用混合模型对新闻个性化推荐的模型设计进行了研究。标签的关注程度由一组向量表示:T={标签1,标签2,…标签q},其中,q代表所有标签的个数,Tc代表用户对第c个标签的关注程度,是一个权值,计算公式表示为:

7、Tc=So表示用户对该标签下新闻的阅读量,S表示用户全部的阅读量。(4)用户兴趣度更新。用户浏览X页的行为和习惯反映了用户的兴趣特征,兴趣偏好是一个逐渐变化的过程,当某一个兴趣得不到加强,随着时间的推移兴趣会逐渐减弱,而且很难与用户偶然性的浏览相区分,通过添加衰减因子更新新闻兴趣主题特征权重的方法更新用户对新闻主题的新鲜度,公式如下所示:Zi=λ(t)Z′i其中,Zi表示主题i新的权值;λ(t)为时间衰减因子;Z′i表示其原有权值。定义用户的兴趣衰减系数如下公式所示:λ(t)=ek(t-t0)(0<k<1)k值的大小决定了特征值

8、权重的衰减速度。k值越大,衰减速度越快。t表示现在访问时间,t0表示上次访问时间。新闻推荐生成用户推荐新闻列表由新闻内容模型与用户兴趣模型计算向量相似性,通过余弦相似度方法实现,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。