硕士论文-网站访问点击流分析与基于ssis的etl设计实现

硕士论文-网站访问点击流分析与基于ssis的etl设计实现

ID:34631721

大小:12.94 MB

页数:144页

时间:2019-03-08

硕士论文-网站访问点击流分析与基于ssis的etl设计实现_第1页
硕士论文-网站访问点击流分析与基于ssis的etl设计实现_第2页
硕士论文-网站访问点击流分析与基于ssis的etl设计实现_第3页
硕士论文-网站访问点击流分析与基于ssis的etl设计实现_第4页
硕士论文-网站访问点击流分析与基于ssis的etl设计实现_第5页
资源描述:

《硕士论文-网站访问点击流分析与基于ssis的etl设计实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、西南财经大学硕士学位论文网站访问点击流分析与基于SSIS的ETL设计实现姓名:鲜海申请学位级别:硕士专业:计算机应用技术指导教师:王之怡20081101中文摘要你真的了解自己的网站吗?每天有多少人访问您的网站?现在有谁正在您的网站上?他们做了什么?他们从何而来?搜索引擎为您带来多少点击?访问者搜索的关键词是什么?您的哪个栏目哪个网页更受欢迎?这些问题的解决就是本文的目的,其手段是通过数据仓库的形式,因为创建数据仓库作为企业管理决策支持系统的基础已得到越来越多企业领导者的认同,也是企业经营管理决策与信息化结合的趋势所在。传统数据仓库是针对某个主题,对传统操作型数据库中的数据进行抽取、清洗和转换

2、,加载到数据仓库中,形成多维数据集。决策者可通过OLAP(在线分析处理)或数据挖掘工具对从不知晓的企业运营的内在知识进行挖掘,挖掘隐含在内部的商业知识、商业模式,或针对企业以往发展,探索成功与失败的原因。点击流数据仓库的数据来源与一般数据仓库不同,来自点击流数据,通过收集、整理、转换这些数据,建立针对Web点击信息的各种维度,进而分析网站用户的行为并最终探索导致这些行为的内在原因是点击流数据仓库的建设初衷。通过点击流数据仓库将描述用户行为的数据转为决策者可以利用的有效信息,为网站经营者提供决策支持。通常,Web分析工具能提供一些有利于分析网站基本流量和访问模式的概要级信息,了解网站的基本运行

3、状况。但要探究导致网站用户行为的内在因素或其他一些商务问题时,Web分析工具则显得力不从心。点击流数据仓库的建立完全遵从传统数据仓库建立的原则,其优势源于点击流数据是一种真正改进了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓库具有其他方式或工具无法比拟的优势。首先,点击流数据仓库能够更好地组织和管理点击流数据,能描绘Web用户完整的行为视图;网站访问点击流分析与基于SSIS的ETL设计实现其次点击流数据仓库中的数据通常经过抽取、转换和清洗,因而在数据仓库上进行点击流数据分析可免去许多数据预处理的工作;点击流数据仓库中集成了大量的历史数据,而对用户行为分析的大多数问题也与时间有

4、关,因此,借助点击流数据仓库进行点击流分析更利于理解用户的行为。同时,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商业智能系统是建立在数据仓库、OLAP(联机分析)和数据挖掘等技术的基础之上,通过收集、整理和分析企业内外部的各种数据,为企业管理层提供科学的决策依据。而MicrosoftSQLServer2005是用于大规模联机事务处理(OLTP)、数据仓库和电子商务应用的数据库和数据分析平台。在商业智能方面SQLServer2005提供了三大服务和一个工具来实现系统的整合。三大服务是SQLServerAnalysisServices(SSAS分析服

5、务)、SQLServerIntegrationServices(SSIS集成服务)、SQLServerReportingServices(SSRS报表服务)和一个工具是SQLServerBusinessIntelligenceDevelopmentStudio(BIDS)。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是OLTP系统和OLAP系统之间的桥梁,是数据从源系统流入数据仓库的通道。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的

6、好坏直接关系到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。ETL的实现有多种方法,SQLServer2005的SSIS服务提供了较为完好的ETL解决方案。因此,应用点击流数据仓库对网站访问进行统计分析,在ETL数据加载方面使用SQLServer2005的SSIS集成服务,这也是本文主要的应用设计。主要内容章节安排如下:第一章绪论部分。主要介绍课题的研究背景,概述课题的研究意义,目的和实际价值。主要针对网站访问点击流分析,深入挖掘客户访问信息,全面掌握网站运营情况。举例分析国内外产品的研究及应用情况,指出课题的

7、2中文摘要主要研究内容。第二章商业智能的技术构成与点击流数据仓库部分。介绍商业智能、点击流数据仓库的定义及相关概念,并对SQLServer2005实现BI的体系结构进行了解,分析SSIS设计流程,了解SSIS的典型应用。第三章Web服务器日志与点击流数据源部分。主要对Web服务器日志文件格式进行分析,研究日志文件与点击流数据源的关系。第四章数据预处理和基本维度数据加载部分。主要分析对W3C日志文件进行预处理的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。