基于巴氏系数和聚类的协同过滤技术研究

基于巴氏系数和聚类的协同过滤技术研究

ID:23281202

大小:1.04 MB

页数:60页

时间:2018-11-06

基于巴氏系数和聚类的协同过滤技术研究_第1页
基于巴氏系数和聚类的协同过滤技术研究_第2页
基于巴氏系数和聚类的协同过滤技术研究_第3页
基于巴氏系数和聚类的协同过滤技术研究_第4页
基于巴氏系数和聚类的协同过滤技术研究_第5页
资源描述:

《基于巴氏系数和聚类的协同过滤技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士专业学位论文PROFESSIONALMASTERDISSERTATION论文题目:基于巴氏系数和聚类的协同过滤技术研究论文作者:姜少鑫专业类别/领域:计算机技术指导教师:陈彩副教授论文提交日期:2017年05月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307109密级:公开北京工业大学硕士专业学位论文(全日制)题目:基于巴氏系数和聚类的协同过滤技术研究英文题目:RESEARCHONTHECOLLABORATIVEFILTERINGTECH

2、NIQUEBASEDONBHATTACHARYYACOEFFICIENTANDCLUSTERING论文作者:姜少鑫专业类别/领域:计算机技术研究方向:计算机技术申请学位:工程硕士专业学位指导教师:陈彩副教授所在单位:信息学部答辩日期:2017年05月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做

3、的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:姜少鑫日期:2017年06月23日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:姜少鑫日期:2017年06月23日导师签名:陈彩日期:2017年06月23日摘要摘要互联网的产生与普及满足了人们对于信息的需求,但随着互联网的飞速发展,人们的周围充斥了太多的信息使之无法准确找到感兴趣的信息,这

4、就是“信息过载”问题。“信息过载”问题可以通过搜索引擎来解决,像谷歌、百度等,但搜索引擎存在的问题是对于不同用户的相同输入,结果是一样的。这样就统一看待用户了,不能够根据不同的用户来输出不同的结果,因此使用搜索引擎不能有效解决“信息过载”问题。个性化推荐不仅仅考虑用户的输入,还考虑用户的其他信息(如评分)从而为不同的用户输出具有个性化的结果,是一个解决该问题的更好的办法,其核心是推荐算法。工程领域中使用最为广泛的协同过滤算法在其推荐过程中需要根据相似度来搜索目标用户的近邻,而现有的公式都要依赖共同评分项,所以在数据稀疏的情形下这些相似度方法会

5、因共同评分项较少而无法取得令人满意的结果。工程中的超级巨大评分数据规模又会制约其可扩展能力,需要的计算时间也在递增。为了解决上述问题,本文首先提出基于巴氏系数的协同过滤算法,克服对共同评分的依赖问题。然后再结合k-means聚类算法,在进行推荐之前,对所有用户进行预处理,在较小的范围内搜索近邻,提高了扩展性。本文所做的内容如下:第一,基于巴氏系数解决评价数据稀疏问题。通过引入巴氏系数来克服现有相似度计算方法依赖共同评分项的问题,从而提出基于巴氏系数的协同过滤算法,新的算法在某种程度上也缓解了冷启动问题;第二,改进k-means算法,并基于该算

6、法解决可扩展性问题。经典k-means算法不适合评分数据非常稀疏的场景,通过结合用户评分项目数来优化距离公式和基于轮廓系数选取初始聚类中心,使其适用于稀疏数据场景。然后结合改进的协同过滤算法克服可扩展性问题。第三,实验验证了算法的有效性。本文主要做了两方面的实验,一是验证基于巴氏系数的协同过滤算法是否有效缓解了稀疏性问题;二是基于k-means和巴氏系数协同过滤算法的实验,验证扩展性问题是否有效解决。从实验运行结果来看,本文的算法极大地减少了对共同评分的依赖,很好地解决了稀疏性问题,提高了扩展性。关键词:信息过载;协同过滤算法;巴氏系数;相似

7、度计算;k-means算法-Ⅰ-AbstractAbstractWithemergenceandpopularizationofInternet,people’sdemandforinformationhasbeenfulfilled.However,inthewakeofrapiddevelopmentofInternet,peoplearefailedtofigureouttheirinterestedinformationaccurately,whosesurroundingsarefullofovermuchinformation,w

8、hichisknownastheproblemofInformationOverload.ItcouldbesolvedbySE,suchasGoogleandBa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。