资源描述:
《面向用户互联网访问日志的异常点击分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报JOURNALOFCHINESEINFORMATIONPROCESSING第24卷第3期2010年5月Vol.24,No.3May,2010文章编号:100320077(2010)0320044205面向用户互联网访问日志的异常点击分析王倩,刘奕群,马少平,茹立云(智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学计算机科学与技术系,北京100084)摘要:随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习
2、惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多IP的点击,我们建议不做处理。关键词:计算机应用;中文信息处理;用户行为分析;互联网访问日志;异常点击中图分类号:TP391文献标识码:AAbnormalClickAnalysisinWebUserAccessLogsWANGQian,LIUYiqun,
3、MAShaoping,RULiyun(StateKeyLaboratoryofIntelligentTechnologyandSystems,TsinghuaNationalLaboratoryforInformationScienceandTechnology,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Nowadays,userbehavioranalysishasbeenwidelyuse
4、dinWebresearchfields.Therefore,howtoremoveabnormalclicksfromWebuseraccesslogsisveryimportantforextractingtrueinformationonuserpurposeandbe2havior.Inthispaper,withrealworldWebUserAccessLogsprovidedbyacommercialsearchenginecompany,weanalyzesomepossibleabnormalclicks—s
5、uchascontinuousclick,oneusermanyIPs,oneipmanyusers,fromsomeperspectives—forthedegreeofconcentrationforusertoaccesswebsites,averagedailyclicksofoneuser,etc.Wesuggestthatforcontinuousclick,userbehaviorresearchercaneliminatesuperfluousandrepetitiveclicksoralltheclickso
6、ftheuserwithcontinuousclick,andthecasesofoneipmanyusersandoneusermanyipscanbeleftun2touched.Keywords:computerapplication;Chineseinformationprocessing;userbehavioranalysis;webuseraccesslogs;ab2normalclick富网民信息来源的同时,给互联网公司带来了巨大收益。如何在众多竞争对手中脱颖而出,吸引更多的网民注意力,成为了各家互联网公司关注
7、的核心,而用户行为分析,是各个公司获取用户反馈信息从而改进服务的最重要手段之一。随着搜索引擎技术的发展,由搜索引擎公司提引言1据统计,截止2009年12月30日我国网民人数已达到3.84亿[1]。随着互联网逐渐深入人们的日常生活之中,围绕着网络已经形成一个庞大的产业链,如搜索引擎、门户网站、视频网站、博客网站,以及应用在这些网站的种种网络营销。这些资源在丰供的浏览器工具栏越来越为广大网络用户所接受。浏览器工具栏可以为用户提供直接的搜索引擎访问收稿日期:2009209211定稿日期:2010201229基金项目:国家自然科学基金
8、项目资助(60736044,60903107);高等学校博士学科点专项科研基金资助(20090002120005)作者简介:王倩(1983—),女,博士生,主要研究方向为竞价广告投放;刘奕群(1980—),男,助理研究员,主要研究方向为网络用户行为分析与网络信息检索;马少平(