基于协同过滤和文本相似度的标签推荐及搜索优化

基于协同过滤和文本相似度的标签推荐及搜索优化

ID:34839026

大小:2.56 MB

页数:35页

时间:2019-03-12

基于协同过滤和文本相似度的标签推荐及搜索优化_第1页
基于协同过滤和文本相似度的标签推荐及搜索优化_第2页
基于协同过滤和文本相似度的标签推荐及搜索优化_第3页
基于协同过滤和文本相似度的标签推荐及搜索优化_第4页
基于协同过滤和文本相似度的标签推荐及搜索优化_第5页
资源描述:

《基于协同过滤和文本相似度的标签推荐及搜索优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学工学硕士学位论文1.2研究现状目前,关于英文方面的社会标注系统已经比较成熟。其中Del.icio.us允许用户使用标签对自己喜欢的网页进行标注并共享;Flickr允许用户对自己喜欢的图片进行标注并共享;在YouTube网站上用户可以将自己喜欢的视频保存下来并与其他人共享。本文主要研究内容是如何提高Del.icio.us网站上标签的推荐质量及标签如何提高搜索网页的性能。在Del.icio.us网站中,它不但允许用户收藏自己喜欢的网页,而且允许用户共享网页。不仅如此,用户在上传网页时,网站会推荐比较流行的标签给用户,这样有可能造[5]成

2、标签的长尾分布。虽然大部分流行的标签能较好的标注网页,但是也有少部分的以前使用较少的标签更能描述标注的网页,该网站目前还没有在这方面加以改进。如图1-1所示。图1-1del.icio.us网站标签分配机制[6]另外,对于搜索引擎优化(SearchEngineOptimization)问题研究的比较成熟,优化的目的是增加网站的点击量,提高网站的在搜索结果中的排名,从而让更多的用户知道网站,提升网站的知名度。网页排名大部分都是基于查询词和文档的相似度,主要的[7][8][9][10]技术包括链接分析、元数据的抽取、锚文本、搜索日志的挖掘,还有的

3、是通过[11][12]网页的可信度排序,如HITS算法和PageRank算法。随着Web2.0技术的发展,越来越多的社会标注网站允许不同知识背景的用户为自己的资源标注标签,Del.icio.us网站就是其中一个,随着标签数量的增加,标签所代表的有用信息被运用到多个方面,例如[13][14]个性化搜索、语义网络等,但是如何将标签信息应用到引擎优化中去是一个棘手的2第1章绪论问题。[15]许多学者就上述问题进行了相关研究。G.Mishne开发了一个协同过滤标签推荐系统,它通过信息检索发现一些已标注的相似的博客,使用启发式规则为标签打分,最[16

4、]后提供一些相关的标签给用户选择。S.OnK.Lee等提出了一种为博客自动推荐标签的方法,该方法使用混合人工神经网络,利用从Web2.0协作标记提取的集体智慧以及[17]词的语义学习如何预测最好的标签集合。C.Sanjay等开发了一个利用现存的博客为新博客提供标签建议的系统。系统分为标签压缩、标签建议引擎和评估三个部分,其中标签压缩分为标签标准化和压缩确认两部分。标签压缩就是将每个标签中的空格和标点符号去除,对于具有同根的标签使用Porterstemming算法剔除成相同的单词,然后按字母的先后顺序排序,例如“newsandpolitics

5、”和“politicsandnews”都被压缩成“andnewpolit”。压缩确认是确保在相同词根下的词有相同的意思。标签搜索引擎包括基础案例、案例检索和案例评估。基础案例中用到了Lucene搜索引擎,该搜索引擎能够为目标博客提供包含有一个或多个特殊检索词的博客。案例检索中使用TFIDF值比较博客之间的相似度。检索到相似博客后,综合考虑标签频率、文本发生率、标签个数、等级和聚类多个方面,将总权重较高的标签推荐给目标博客。最后使用精确的字符匹配评估标签的查[18]准率和查全率。Y.-T.Lu等提出了基于内容的标签推荐,通过改进的余弦相似度比

6、较网页的相似性,将相似性较高的网页中权值高的标签推荐给用户。文献[19]提出了基于HITS算法的协作式标签推荐方法,通过奖罚算法选择出较好的标签,并给出了好标签的标准。这些标准包括:多方面高覆盖性、高普遍性、标签标准化等。这些标准值的我们借鉴并应用到以后的研究中去。文献[20]提出了使用社会标签优化搜索的方法,分析了如何计算查询词与标签之间的相似度和网页的受关注程度。而关于中文方面的标签推荐系统的研究相对还比较落后,并且标签推荐系统和使用标签优化搜索方面的单位和相关方向的文献相对也比较少,许多网络用户对什么是标签推荐和如何优化搜索还比较陌生

7、。近些年,随着网络迅猛发展,越来越多的学者开始关注标签推荐这一领域,并且取得了一定的成果。目前,中文方面的标签推荐系统和如何使用标签优化搜索的研究还处于初级阶段,大部分都停留在理论的基础上,还没有较为成功的社交网站,如果能创建几个大型的社交网站,将研究的成果应用到网站的建设中去,这样就有可能激发更多的学者关注这一领域,推动该领域的进一步发展,让更多的人熟知什么是标签推荐系统,从而参与进来。3河北大学工学硕士学位论文1.3研究目的和意义传统的社交网站,允许用户为自己的资源任意添加标签,由于每个用户积累的知识各不相同,有些用户添加的标签有明显的

8、错误或者能概括资源的内容,影响了资源共享的质量。我们在数据集中找出了一些用户添加的标签,如图1-2所示,从中可以看出,有些标签拼写错误或者单复数都出现或者不能表达任何意思。例如“

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。