用户行为特征及缓存的应用

用户行为特征及缓存的应用

ID:37549494

大小:1.18 MB

页数:40页

时间:2019-05-12

用户行为特征及缓存的应用_第1页
用户行为特征及缓存的应用_第2页
用户行为特征及缓存的应用_第3页
用户行为特征及缓存的应用_第4页
用户行为特征及缓存的应用_第5页
资源描述:

《用户行为特征及缓存的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章 用户行为特征及缓存的应用张宇计算机科学与技术学院研究用户行为特征的目的搜索引擎用户输入的查询词语和查询过程中所点击到的网页URL均表现出明显的局部性可以用来指导查询缓存的设计主要内容用户查询与点击日志用户行为特征的统计分析查询缓存的使用用户行为与Web信息的分布特征主要内容用户查询与点击日志用户行为特征的统计分析查询缓存的使用用户行为与Web信息的分布特征用户查询与点击日志搜索引擎所维护的信息种类搜集到的Web网页相关的信息网页经过分析处理后得到的信息:摘要、关键词、元信息、URL超链信息这些都是提供给用户看

2、的信息在服务过程中收集到的用户行为信息用户的查询项、查询时间、用户的IP地址、用户点击的感兴趣的页面的URL用户查询与点击日志天网日志文件用户查询日志用户提交查询请求时记录的用户提交的关键词、提交时间、用户的IP、页号、是否在缓存中命中用户点击日志在用户浏览查询结果时点击页面时记录的用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号、该点击对应的查询词等FriMar2100:00:022003//提交时间218.24.100.77//用户IPDatabase//是否在缓存中命中老歌//查询词3//页号Fr

3、iMar2100:00:022003//点击时间202.206.102.169//用户IP虫儿飞//查询词http://sports.163.com/tm/000828/000828_64264.html//点击的URL16//点击页面的排序用户查询与点击日志统计分析了如下用户行为的分布特征用户查询词的分布情况雷同查询词的衰减统计相邻N项查询项的偏差分析用户点击URL的分布情况用户在输出结果中的翻页情况主要内容用户查询与点击日志用户行为特征的统计分析查询缓存的使用用户行为与Web信息的分布特征用户行为特征的统计分析用

4、户查询词的分布情况天网1999年4月15日到1999年6月10日期间的日志记录为分析对象假设用户的查询词序列为其中,n个查询中共有m个不同的查询词按查询次数降序排列,得到用户行为特征的统计分析与S2对应的查询次数序列S2中前某个百分比的查询词对应的查询次数占总查询次数的比率Y用户行为特征的统计分析查询词的分布情况X轴:用户查询词占查询词总数的百分比Y轴:查询词的查询次数占总的查询次数的百分比查询词分布函数及其拟合函数原函数拟合函数拟合函数:y=(-0.04103+1.01689x)0.1346用户行为特征的统计分析雷

5、同查询词的衰减统计将序列S1进行分组(用户的查询词序列)每1000个一组T1表示A1中不同的查询项组成的集合,然后计算后面各组的查询项中有多少个查询项出现在T1中用户行为特征的统计分析雷同查询词的衰减用户行为特征的统计分析相邻N项查询的偏差分析将用户查询每1000项分为一组对于相邻的两组A和B假设A组中出现的不同的用户查询是其中,前k项是A组和B组共有的,后n项是A中但B中没有的同理,B组中出现的不同的用户查询是用户行为特征的统计分析A和B中的这些不同的查询项构成一个向量空间假设,为某查询词qi在A中出现的次数,则可

6、得到A组的特征向量同样,可得到B组的特征向量用户行为特征的统计分析计算上两种特征向量的差平方和相邻1000项查询词的频率的差的平方和用户行为特征的统计分析用户在输出结果中的翻页情况统计表统计相同页号的页面点击次数占总点击此书的百分比假设系统能够提供n个显示页面实际系统中,n=2000,每页包括10个网页信息显示页面:{P1,……Pn}对应的点击数:{C1,……Cn}用户行为特征的统计分析计算其点击次数占总点击此书的百分比页号12345百分比47.3%12.2%7.4%5.0%3.7%用户在前5页的翻页情况统计用户行为

7、特征的统计分析用户翻页情况统计用户行为特征的统计分析用户点击URL的分布情况假设用户点击的URL序列为其中,这n个点击中有m个是不同的,按其被点击次数进行降序排列,得到序列与S2对应的点击次数序列用户行为特征的统计分析计算S2中前某个百分比的URL其对应点击次数占总点击次数的比率Y用户点击URL的分布情况横坐标:所选URL的数目占用户点击的URL总数的比率纵坐标:所选URL的被点击数目占用户点击总数的比率用户行为特征的统计分析主要内容用户查询与点击日志用户行为特征的统计分析查询缓存的使用用户行为与Web信息的分布特征

8、查询缓存的使用基于用户行为的启示用户查询分布的统计分析表明用户查询词是非常集中的表明在查询中使用缓存的可行性用户经常查询的词其实很少把这些查询次数较高的词的查询结果放在缓存中,可以用较小的空间取得较大的缓存命中率假设缓存中命中一个用户查询需要的延迟是Tm磁盘文件中查找一个用户查询需要的时间是Td缓存命中率是p引入缓存后,用户查询的平均响应时间变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。