欢迎来到天天文库
浏览记录
ID:51115839
大小:339.00 KB
页数:9页
时间:2020-03-18
《模式识别_10720938_赵海红.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、研究生文献阅读课程文献阅读报告题目:基于用户行为的WEB内容分析研究课程名称:模式识别学院:计算机科学与工程专业:计算机科学与技术学号:10720938学生姓名:赵海红基于用户行为的WEB内容分析研究赵海红10720938计算机科学与工程摘要:互联网技术的迅猛发展把我们带进了信息爆炸的时代.海量信息的同时呈现,同时也存在无序性,结构多样性的问题,使用户一方面很难从中发现自己感兴趣的部分,另一方面也使得大量少人问津的信息成为网络中的“暗信息”,无法被一般用户获取.本文力求为上述问题提出一个解决方案,提出了一种基于用户行为的WEB信息内容的分析。利用Google搜索引擎提供的结果,以及
2、用户点击页面内容进这行分析,找到用户的一些兴趣爱好和相同兴趣爱好的群组,最后利用用户的爱好与群组,为用户提供各类服务。关键词:协同过滤;UserConText;QueryConText;信息熵;信息检索Abstract:TherapiddevelopmentofInternettechnologybroughtusintotheeraofinformationexplosion.Vastamountsofinformationatthesametimeshow,thereisalsodisorder,structuraldiversity,allowingusersfromoneh
3、ardtofindpartsofinteresttotheotheralsomakesalotofinformationShaorenwenjinnetworkof"secretinformation"andcannotbegeneraluseraccess.Thepapertriestoproposeasolutiontotheseproblems,aWEBbasedonuserbehavioranalysisofinformationcontent.UseGooglesearchengineresults,andtheuserclicksthepagecontentintoth
4、islineofanalysis,tofindtheuser'sinterestsandthesamenumberofgroupinterests,thelastuseoftheuser'spreferencesandgroups,toprovideuserswithvariousservices.Keywords:collaborativefiltering;UserConText;QueryConText;informationentropy;informationretrieval随着Internet迅猛发展,接入Internet的服务器数量和World-Wide-Web上的
5、网页的数目都呈现出指数增长的态势。互联网技术的迅速发展使得大量的信息同时呈现在我们面前,例如,Netflix上有数万部电影,Amazon上有数百万本书,Del1icio1.us上面有超过10亿的网页收藏,如此多的信息,别说找到自己感兴趣的部分,即使是全部浏览一遍也是不可能的。传统的搜索算法只能呈现给所有的用户一样的排序结果,无法针对不同用户的兴趣爱好提供相应的服务。信息的爆炸使得信息的利用率反而降低,这种现象被称之为信息超载。个性化服务,包括个性化搜索、推荐等,被认为是当前解决信息超载问题最有效的工具之一。推荐问题从根本上说就是代替用户评估它从未看过的产品。这些产品包括书、电影、C
6、D、网页、甚至可以是饭店、音乐、绘画等等,是一个从已知到未知的过程。本文力求为上述问题提出一个解决方案,提出了一种基于用户行为的WEB信息内容的分析。利用Google搜索引擎提供的结果,以及用户点击页面内容进行深入分析,找到用户的一些兴趣爱好和相同兴趣爱好的群组,最后利用用户的爱好与群组,为用户提供各类服务,也即使实现利用其他用户的喜好帮助用户找到自己所喜好的网络资源。本文第一节讨论QueryConText的基本概念,第二节讨论UserConText的基本概念,第三节我们讨论用户之间协同度计算的问题,第四节用户聚类的问题,发现具有类似兴趣爱好的用户群。第五节是我们对实验结果的分析,
7、第六节全文总结展望。第七节是致谢。1QueryConText1.1前提概念记录(Record,由Ri表示)记录是搜索结果的基本单位。由标题(Title),片段(Snippet),网页地址(Url)组成。一个搜索结果页面通常包含几条到几百条记录,因此适当的选取有用的记录是十分有必要的。标题(Title,由Ti表示)标题是记录的组成部分,主要是用于鉴别一个页面的手段,标题中往往带有主题概念(ThemeConcept)或者搜索关键词(Keyword)。因此很多用户使用标题来
此文档下载收益归作者所有