-数据挖掘实验报告

-数据挖掘实验报告

ID:43551895

大小:1011.15 KB

页数:28页

时间:2019-10-10

-数据挖掘实验报告_第1页
-数据挖掘实验报告_第2页
-数据挖掘实验报告_第3页
-数据挖掘实验报告_第4页
-数据挖掘实验报告_第5页
资源描述:

《-数据挖掘实验报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘概念与分析实验报告编制日期:2009年11月27日目录一、相关名词解释31.1数据仓库31.2数据挖掘31.3决策树31.4吋序31.5关联规则4二、实验环境4三、实验准备5四、实验内容5五、实验步骤55」対数据挖掘相关名词进行理解和运用55.2对本次实验的数据库环境进行熟悉环境55.3准备工作55.3.1创建一个AnalysisServices项H55.3.2创建一个数据源65.3.3创建数据源视图85.4挖掘步骤1()5.4.1Microsoft决策树挖掘技术一创建用于目标邮件方案的挖掘结构1()5.4.2Microsoft时序挖掘技术一各个型号白行车的销售量做出预测

2、145.4.3Microsoft关联规则挖掘技术一创建市场篮方案155.4.4Microsoft时序分析与聚类分析挖掘技术一查看客八浏览AdventureWorks网站的方式175.5数据挖掘结果分析195.5.1Microsoft决策树挖掘技术一目标邮件方案的挖掘结果分析195.5.2Microsoft时序挖掘技术一各个型号自行车的销售量预测结果分析205.5.3Microsoft关联规则挖掘技术一创建市场篮方案结果分析215.5.1Microsoft时序分析与聚类分析挖掘技术一杳看客户浏览AdventureWorks网站的方式结果分析22、相关名词解释1.1数据仓库a)英文名

3、称为DataWarehouse,可简写为DW。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和吋变性。b)数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据小获取信息和知识。c)从功能结构化分,数据仓库系统至少应该包含数据获収(DataAcquisition)、数据存储(Datastorage)、数据访问(DataAccess)三个关键部分。1.2数据挖掘a)数据挖掘(DataMining),就是从人量数据屮获

4、取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的人虽的数据中“挖掘”冇趣知识的过程。数据挖掘,乂称为数据库屮知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。1.3决策树a)决策树是用二义树形图來表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻

5、辑要求。特别适合于判断因素比佼少、逻辑组合关系不复朵的情况。b)决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险人小做出判断,决策树的基本组成部分:决策节点、分支和叶子。c)数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用來做预测(就像上面的银行官员用他来预测贷款风险)。常用的算法有CHAID、CART、Quest和C5.0。1.4时序a)Microsoft时序算法是MicrosoftSQLServer2005AnalysisServices(SSAS)提供的凹归算法,用于创建数据挖掘模型以预测连续列,如预测

6、方案中的产品销售额。其他Microsoft算法创建依靠给定输入列来预测可预测列的模型(如决策树模型),而时序模型的预测则仅根据算法在创建模型时从原始数据集派住的趋势。以下关系图(图1.1)显示了一个典型模型,用于预测各个吋间的销售额。图1.1关系图关系图屮显示的该模型由两部分纽成:历史信息以红色显示,预测信息以蓝色显示。红色数据代表算法用于创建模型的信息,而蓝色数据则代表模型做出的预测。由红色数据和蓝色数据联合形成的线称为“序列”。每个预测模型必须包含一个事例序列,即区分序列列中不同点的列。例如,因为关系图屮的数据显示了几个月屮的历史和预测销伟额序列,因此数据列为事例序列。b)M

7、icrosoft时序算法的一个重要功能就是可以执行交义预测。也就是说,如果使用两个单独但相关的序列为该算法定型,就可以使用得到的模型根据其他序列的行为预测一个序列的结果。例如,一个产品的实际销售额可能会影响另一个产品的预测销售额。1.5关联规则a)数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值Z间存在某种规律性,就称为关联。关联町分为简单关联、时序关联、因果关联。关联分析的目的是找岀数据库屮隐藏的关联网。有时并不知道数据库屮数据的关联函数,即使知道也是不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。