欢迎来到天天文库
浏览记录
ID:33393121
大小:1.43 MB
页数:66页
时间:2019-02-25
《云计算技术在web日志挖掘中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国科学技术大学硕士学位论文云计算技术在web日志挖掘中的应用研究姓名:程苗申请学位级别:硕士专业:商务智能指导教师:陈华平2011-05-15摘要摘要如何解决数据挖掘中海量数据处理的问题一直是数据挖掘领域一个非常重要的研究课题。尤其是随着网络技术的迅猛发展,web上的数据正以指数级形式飞速增长,且web上的数据具有海量、多样、异构、动态变化等特点,这使得基于单一节点的集中式数据挖掘平台已经不能满足目前海量数据网络的分析任务了。如何实现快速地从web这个最大的数据集合中提取出有用的信息已成为数据挖掘领域一个备受国内外学者关注的课题。云计算正是产生于这样的背景之下,它的出
2、现给海量数据的处理和存储带来了曙光。同时,云计算只需要部署在普通的廉价计算机集群上即可运行,但是数据处理能力却很强,因此Web数据挖掘系统在云计算集群框架下的成功实行具有很重要的意义和应用价值。本文在Hadoop平台上,结合web日志挖掘的特点,给出了一种基于云计算的web日志挖掘系统的设计方案,并对该系统的各个功能模块进行了详细的阐述。同时,针对目前从web日志中挖掘用户偏爱路径的算法注重客观访问频度,而忽略用户对这一频繁访问路径是否感兴趣的不足,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,给出了一个挖掘用户浏览偏爱路径的方法,从而
3、剔除了由于页面放置和链接等因素对挖掘的影响。最后对本文给出的改进算法的有效性以及云计算平台的高效性进行了实验比较分析。实验结果表明,改进后的挖掘用户偏爱浏览路径的算法更能反映用户的浏览意图。同时,利用云计算平台,通过“云”中多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的web日志挖掘。关键词:云计算web日志挖掘Hadoop浏览偏爱路径IABSTRACTABSTRACTHowtosolvetheproblemofprocessingmassivedataindata-miningfiledisalwaysanimp
4、ortantresearchingsubject.Especiallywiththerapiddevelopmentofnetworktechnology,thedataonthewebincreaserapidlyintheformofexponentialandwithmanycharacteristicssuchasmassive,diverse,heterogeneousanddynamic,thismakesminingonasinglenodecannotmeettheneedofcurrentmassivedataanalysistask.Howtoext
5、ractusefulinformationfromtheworld’slargestdatacollection—web,hasbecomeamoreconcernedsubjectforscholarsfromallovertheworld.CloudComputingisproducedunderthebackgroundofthesituationmentionedabove,itsemergencegivesabrightfutureformassivedataprocessingandstorage.TheplatformofCloudComputingcan
6、runonlytobedeployedinanordinaryclusterofinexpensivecomputers,butthedataprocessingcapabilityisstrong.Therefore,whetherwebdataminingsystemrunsuccessfulundertheframeworkofCloud’sclusterornot,hasanimportantsignificanceandapplicationvalue.BasedontheHadoopplatform,combinedwiththecharacteristic
7、ofweblogmining,wepresentasolutionofweblogminingsystemwhichbasedonCloudComputing,anddescribeeachmoduleofthesystemindetails.Meanwhile,thecurrentminingalgorithmsarefocusonusers’browsingfrequency,neglectanimportantproblemofwhetherusersareinterestedinthefrequentpathornot.Dueto
此文档下载收益归作者所有