基于点击流web数据挖掘的研究和应用

基于点击流web数据挖掘的研究和应用

ID:34612768

大小:16.78 MB

页数:80页

时间:2019-03-08

基于点击流web数据挖掘的研究和应用_第1页
基于点击流web数据挖掘的研究和应用_第2页
基于点击流web数据挖掘的研究和应用_第3页
基于点击流web数据挖掘的研究和应用_第4页
基于点击流web数据挖掘的研究和应用_第5页
资源描述:

《基于点击流web数据挖掘的研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、垫重一———一llII]IITIIIIIITIrlIFIII-_-__l____-·_____--___l____l_______··-·__-__-___--__·__-__-·-_________·___l_·_____·_-·_-_-__-·_-_oooooooo—————————o'llY1975705摘要随着Intemet的飞速发展,网络已经成为对外宣传以及了解世界的窗口。万维网(WoddWideWeb)为人们提供丰富信息的同时,也留下了用户浏览页面时的大量访问信息。如何利用这些丰富的数据得到有价值的信息和知识就是我们研究的课题——Web数据挖掘。

2、Web数据挖掘是数据挖掘技术在Web环境下的应用,是对文档的内容、可利用资源的使用及资源直接的关系进行分析,以发现有效的、新颖的、潜在有价值的、并且最终可被理解的模式和规则。Web数据挖掘根据所研究web对象的不同分为:Web内容挖掘、Web结构挖掘和Web日志挖掘三类。Web日志挖掘是Web数据挖掘中重要的研究课题之一,Web日志挖掘所研究的对象是Web日志数据,挖掘结果可以给用户提供个性化服务、网站优化、改善系统性能、电子商务网站确定用户群类、为领导提供决策支持。点击流(Click.stmam)就是指访问者在网络上持续访问时在Web服务器日志文件中“留下

3、"的每一次点击。点击流的概念更注重用户浏览网站的全过程,一个点击流包含用户的多次点击,在日志文件中对应多条日志记录。通过采集用户在会话期间的点击流,可以用于了解用户都访问了哪些页面,在页面上停留了多长时间,按照什么次序访问的页面等等,从而为研究用户的兴趣提供有价值的资料,为商家了解用户需求,实时改变宣传营销策略,使经济效益最大化。对于生源日益紧张的高校来讲,如何通过网络平台更好的宣传自己,如何吸引广大考生的眼球逐渐成为当前高校招生的重头戏。对于招生宣传的决策层来讲,应该知道哪些地区的用户访问量较大,知道哪些信息点击次数多:对于网站设计者来讲,应该知道什么地方

4、出现了性能瓶颈、安全漏洞,什么样的信息能吸引更多的用户访问等等,因此如何能够快速、准确的在“海量"的点击流信息中获取潜在的用户信息的技术成为了Web日志挖掘的一个重点。点击流数据仓库(Web日志数据仓库)是数据仓库的一个重要类型。点击流数据仓库的主要数据来源是web站点的点击流数据。点击流数据仓库建设的目的是通过收集、整理、转换这些数据,建立针对web点击信息的各种维度,摘要并结合数据挖掘等技术,进而分析网站用户的行为的潜在有效信息,从而为网站经营者提供决策支持。SQLServer2005是微软下一代的数据管理和商业智能平台,在商业智能方面,SQLServe

5、r2005提供了三大服务,分别是集成服务(SQLServerIntegrationServices,SSIS)、分析服务(SQLSewerAnalysisServices,SSAS)和报表服务(SQLServerReportingServices,SSRS)。ETL是指将数据从业务系统中抽取(Extraction)、转换(Transformation)、装载(Loading)的过程。ETL目的就是对企业的异构数据源中的分散的、标准不统一的数据进行抽取、清洗、转换然后加载到数据仓库中。本文基于点击流的web日志挖掘研究与应用是从Web日志挖掘技术的理论与方法展

6、开研究,研究对象是建立在安徽国防科技职业学院网站系统之上的web日志数据,结合招生网站的实际数据,并对这些数据进行预处理后建立一个实验性点击流数据仓库,旨在实现以Web日志为数据源,获取用户潜在信息,为高校如何通过网络高效的推广宣传自己、高校生源情况分析以及为网站管理者进行网站结构优化提供决策支持。本文主要研究的内容如下:(1)使用.NET语言对点击流数据源进行各种预处理,为点击流数据仓库的建立提供可靠的数据准备,如:日志过滤、用户识别、会话识别等。对于用户识别,本文综合考虑各种方法的优缺点,采用基于Agent、Session和IP地址的方法。(2)数据挖掘

7、技术的方法、工具有很多,SSIS(SQLServerIntegraUonServices)是SQLServer2005中的一个全新的组件,它提供了构建企业级数据整合应用程序所需的功能和性能且具有可视化调试等特点。本文选择采用基于SSIS的数据仓库ETL工具完成数据的抽取、转换和加载工作,并将其应用到了安徽国防科技职业学院的招生网站的决策支持和技术分析的应用中。在基本维度的处理上,使用“有道”域名分析接口解决了IP地址到地区维度的映射。(3)利用AnalysisServices2005创建了多维数据集,并部署多维数据集到AnalysisServices2005

8、数据库中;最后完成了引前端展示。关键词:web日志挖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。