基于内容过滤的个性化农业信息推荐模型研究

基于内容过滤的个性化农业信息推荐模型研究

ID:23859188

大小:55.50 KB

页数:7页

时间:2018-11-11

基于内容过滤的个性化农业信息推荐模型研究_第1页
基于内容过滤的个性化农业信息推荐模型研究_第2页
基于内容过滤的个性化农业信息推荐模型研究_第3页
基于内容过滤的个性化农业信息推荐模型研究_第4页
基于内容过滤的个性化农业信息推荐模型研究_第5页
资源描述:

《基于内容过滤的个性化农业信息推荐模型研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于内容过滤的个性化农业信息推荐模型研究张启宇1,郭承坤2,宋瑶2,陈英义2,王磊3(1.中国农业大学烟台研究院,山东烟台264000;2.中国农业大学信息与电气工程学院,北京100083;3.山东省农业科学院科技信息研究所,济南250100)摘要:针对农业信息化综合服务平台信息过载问题,构建了个性化农业信息推荐模型,重点研究了用户类别兴趣向量、用户特征词喜好向量和文档特征向量,建立了农业专业词典和中英文停用词典;采用遗忘函数按时间对特征词的权重进行更新,并对用户类别兴趣进行更新,实现用户模型的更新;采用余弦相似度进行推荐度计算,提出了个性化服务推荐算法;通过对推荐信

2、息的URL参数统计获知推荐效果,进一步对个性化推荐模型进行修正。结果表明,该模型可根据用户兴趣制定推荐,为用户提供有价值的信息,满足用户个性化需求。.jyqk,)>其中m为用户感兴趣的类别个数,Cj为第j个类别,Wj为2用户兴趣模型的实现目前,在信息处理方向上,文本的表示主要采用向量空间模型[11]。用空间向量模型表示文本,首先要对文本进行分词,进行特征选择和权重计算,最后形成一个N维空间向量[12]。2.1特征词权重的计算权重的计算有多种方法,主要有布尔函数、频度函数、开根号函数、对数函数、熵函数及TF*IDF函数等,TF*IDF函数因其算法相对简单、有较高的准确率

3、和召回率,一直受到相关研究人员和众多应用领域的青睐[13]。Salton在1973年提出的TF*IDF启发式权重算法计算公式[14]为:W(fi,d)=TF(fi,d)×DIF(fi)=N(fid)×log(N(fi)/N)(1)其中,W(fi,d)是特征词fi在文本d中的权重,N(fi)是出现特征词fi的文本数,N是总文本数,N(fid)是文本d中出现fi的次数。施聪莺等[12]对“考虑类间类内差异的TF*IDF”、“TF*IWF*IWF”、“引入方差的TF*IWF*IWF”及“TF*IDF频率”算法进行测试,“引入方差的TF*IWF*IWF”无论是在开放测试还是在

4、封闭测试中,F1测试值都非常高,反映了方差在抑制干扰方面的作用。本研究采用陈克利等[13]提出的“引入方差的TF*IWF*IWF”权重算法进行计算。特征词在类别中的权重计算公式:心理学研究认为,人的记忆会随着时间的延续而逐渐遗忘,当环境或场合的改变使得记忆中的某些信息长期不被利用时,这些信息会逐渐被遗忘。根据心理学的记忆遗忘理论,可以认为用户兴趣的改变就是一种记忆遗忘现象[16]。目前对遗忘机制的研究是把时间对兴趣的影响通过遗忘函数或遗忘因子来表示出来,并更新用户的兴趣。遗忘函数或遗忘因子有着不同的公式表示,有指数函数[16-21]、线性函数[22-26]、菲波拉契数

5、列[27]、幂函数[28]、对数函数[29]、分段函数[30]、非线性函数[31-33]等。于洪等[28]用ZGrapher工具对艾宾浩斯遗忘曲线进行拟合,得到符合遗忘曲线的数学函数:百度百科的“遗忘曲线”词条[34]给出了艾宾浩斯记忆遗忘一般规律,得出初次记忆后经过了X小时,记忆率Y近似地满足:对公式(6)~(8)进行运算,公式(7)最符合艾宾浩斯遗忘曲线,但公式(7)缺少31d以后的表示。31d以后的记忆趋于稳定,所以把31d以后设置为固定值0.211,修改后的公式为公式(9):其中,t为正整数。采用公式(10)对特征词在类别和文档中的权重进行动态更新。特征词的权

6、重按照公式(2)和(3)进行特征词加权修订后和公式(10)之乘积进行计算。文档中的权重也要计算,因为文档越新,对用户的价值越大,公式(10)对类别和文档进行计算时,t可以取不同的值。2.2特征向量的构造特征向量的构造过程如下:1)分析服务器日志,去掉与日志无关的信息,如请求失败信息、页面图片请求等等,把用户有效的访问信息保存到数据库中[4]。2)获取用户浏览的新闻资讯页面、论坛中发布及回复的帖子、便民服务的..关键词、短信提问的问题,进行中文分词,去除停用词。对于中文分词采用IKAnalyzer2012。IKAnalyzer是一个开源的、基于Java语言开发的轻量级中

7、文分词工具包。在2012版本中,支持通过配置IKAnalyzer.cfg.xml文件来扩充专有词典和停止词典,词典的格式为无BOM的UTF-8编码的中文文本文件[35]。农业专业词典可以借助网络上的词库构建,搜狗输入法[36]、百度输入法[37]、QQ输入法[38]等输入法提供了众多的词库供用户下载使用。从“农林牧渔”类挑选词库,整理农业专业词典。停止词典在文献[39]和[40]的基础上构建。3)对每一个类别计算特征词在类别和文档中的权重,构造用户特征词喜好向量Tk和文档特征向量Dh。Tk=(w1k,w2k,…,wnk),k∈[1,m],m为用户感兴

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。