欢迎来到天天文库
浏览记录
ID:34144674
大小:3.22 MB
页数:46页
时间:2019-03-03
《基于web日志挖掘的推荐系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、东北师范大学硕士学位论文基于Web日志挖掘的推荐系统的研究与实现姓名:刘丽娜申请学位级别:硕士专业:计算机应用技术指导教师:孙铁利20080501摘要随着Intemet应用的迅速发展,网上信息迅速增加,大量的网络信息使人们找到需要的信息更困难了,此种现象称为信息过载。同时,Intemet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。目前大多数搜索引擎由于缺乏主动性,没有考虑用户的兴趣偏好,还不能有效地解决信息过载和信息迷失的问题。W曲日志挖掘是研究用户Wreb浏览行为的主要技术和工具,了解用户的浏览兴趣是提高W.eb服务质
2、量和改善站点结构设计的重要环节。通过分析和研究用户访问情况的规律,可以识别电子商务的潜在客户,增强服务器质量,并改进Wreb服务器系统的结构和性能n‘21。W曲挖掘技术的一个重要的研究方向是w.eb用户聚类和页面聚类,即通过用户对网站的使用信息一Web日志文件的处理和研究,得到具有相似访闯兴趣的用户群体和用户共同感兴趣的站点的UI也,据此可以判别和调整站点的结构并进行个性化服务口t4
3、。而目前的研究均存在一些不足,首先在聚类的相似性度量方面,单纯地以浏览时间或访问次数来度量,对于W,eb站点这种复杂的情况而言,该聚类是不够准确的。另外,他们均采用传统的聚类
4、技术,即把每个对象严格地划分到某个类中,不能处理类间重叠问题。在本文中,首先介绍W
5、eb日志挖掘中数据预处理过程,包括数据净化、用户识别、会话识别、路径补充和事务识别。并分析各个步骤的目的、方法,给出每个步骤的实现算法。然后从用户聚类,页面聚类和频繁访问路径三方面考虑网络浏览模式。给出一些相关定义。并在原有的聚类算法基础上,提出基于向量和模糊集理论的算法,对用户和页面进行有效的聚类,并产生频繁访问路径,从而为用户进行个性化推荐。最后,实现基于Wreb同志挖掘的推荐系统。关键字:W曲日志挖掘;个性化推荐;聚类AbstractWithtllerapiddeVe
6、lopmentoftheIntemet印plications,theinfomationofIntemetpromptsincreaSes.W1lilethehuge锄ountofinfomationonmeIntemetmakesitIlarderforpeoplefindwhattheyacquire.Suchaphenomenoncouldbecalledi—’omationoverload.Atthesametime,tlle谢dedistributionofiⅢ.omationonthemtemetmakestlleusersfindintere
7、stedonemoredimcultmatisso-calledinfomationastray.MostsearchenginespresemlyhaVenotyetsolVeproblemsincludinginfo肌ationoverloadaIldinfonnationastrayeabctivelyo丽ngtoiIl赋icientinpositivecharacteristieandlaCkfortakingusers’硫erestintoconsideration.W曲logmillingism句ortecllIlology锄dtoolstos
8、tudyWrebbrowSerofuserStouIlderStaIldtheuser’sinterestisaIlimponalltpanofimprovingtheq砌ityofsen,icesandtlles咖cnlraldesigIlofW曲site.Tllrou曲analysisandresearchthelawofusersaCcesssitllation,callidenti黟thepotemialcustomersofe—commerceaIldeIlllancethequal岫ofservera11dimproVethestmcturea
9、ndperf.ornl锄ce¨一1ofW曲serversystem.AnimportantresearchdirectionofW曲logmiIlingteclulolog)ristheWrebuserSclusteraIldpagescluster,Ⅱ们u曲usersprocessa11dresearchusageinfonnationofmewebsite-W曲logfile,receivedauser粤.oupsandusersinterestedinthesitefsURLwithintereStedofsimilarvis“.wKchcaIlde
10、te咖ineandadjustthegcmctureofthesi
此文档下载收益归作者所有