欢迎来到天天文库
浏览记录
ID:14347647
大小:396.00 KB
页数:14页
时间:2018-07-28
《方1052-数据仓库与数据挖掘 实验报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、石家庄铁道大学四方学院学生实验报告书实验课程名称数据仓库与数据挖掘学生专业班级方1052信管学生学号学生姓名指导老师姓名刘桂贤2013-2014学年第1学期14实验项目名称数据仓库的设计、实现及多维分析实验成绩实验日期2013年9月21日第一部分:实验分析与设计一、实验内容描述问题描述:此实验为设计型实验,选择一种数据仓库管理系统,如SQLServerAnalysisManager进行数据仓库的设计、实现,并进行多维数据分析。二、实验基本原理与设计数据仓库(多维数据模型)AnalysisServerETLS
2、QLServer2000数据库DTS数据源学生信息管理系统、文本文件、电子表格三、主要仪器设备及软件环境WindowsxpSQLServer200014第二部分:实验调试与结果分析一、调试过程(包括调试方法描述、实验数据记录,实验现象记录,实验过程发现的问题等)如何向多维数据集添加度量值:度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度量值根据多维数据集不同的维度类别进行分析。1.在多维数据集向导的“欢迎”步骤,单击“下一步”按钮。2.在“从数据源中选择事实数据表”步骤,展开“教
3、程”数据源,然后单击“sales_fact_1998”。3.单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。4.若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。二、实验结果及分析(包括结果描述、实验现象分析、影响因素讨论、综合分析和结论等)运行结果为:第一步,建立系统数据源连接第二步,启动Ana
4、lysisManager14第三步,建立数据库和数据源第四步建立多维数据集1、如何建立时间维度142、如何建立产品维度143、如何建立客户维度4、如何生成商店维度5、完成多维数据集的生成146、设计存储和处理多维数据集7、浏览多维数据集数据(1)使用多维数据集浏览器查看多维数据集数据(2)替换网格中的维度14(3)按时间筛选数据14(4)深化三、实验小结、建议及体会基于“学生成绩分析”主题数据仓库多维模型的建立,能很好地满足高校老师和学生对学生成绩信息进行快速查询以及分析的需要,为更多其他主题数据仓库的建立
5、奠定了基础。然而各主题数据仓库的建立,只是一个开始,我们下一步工作将是在建立好的数据仓库基础上进行数据挖掘,进一步去发现隐藏在这些学生成绩信息数据中更加有用的知识、规律和模式,使之为学校学生成绩分析工作服务。将数据仓库技术应用到学生信息管理中,使我了解了数据仓库的应用以及如何创建数据仓库。14实验项目名称Apriori算法实验成绩实验日期2013年9月28日第一部分:实验分析与设计一、实验内容描述(问题域描述)此实验为综合型实验,要求学生综合利用先修课程高级程序设计语言、数据库、算法设计与分析,与本门数据挖
6、掘课程的知识,选择一种编程工具,如VisualC++,实现经典挖掘算法Apriori或算法k-Means。二、实验基本原理与设计(包括实验方案设计,实验手段的确定,试验步骤等,用硬件逻辑或者算法描述)Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不
7、能找到频繁k-项集。找每个Lk需要一次数据库扫描。为了提高频繁项目集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:(l)若X是频繁项集,则x的所有子集都是频繁项集。(2)若x是非频繁项集,则X的所有超集都是非频繁项集。2.2算法描述:算法:Apriori算法,使用逐层迭代找出频繁项集。输入:事务数据库D;最小支持度阈值min_sup。输出:D中的频繁项集L。1)L1=find_frequent_1_itemsets(D);2)for(k=2;Lk-1≠;k++){3)Ck=apro
8、iri_gen(Lk-1,min_sup);4)foreachtransactiontD{//scanDforcount5)Ct=subset(Ck,t);//getsubsetsoftthatarecandidates6)foreachcandidatecCt7)c.count++;8)}9)Lk={cCk
9、c.count≥min_sup}10)}11)returnL=∪kLk;从事务数据库D中挖掘出所有频繁项
此文档下载收益归作者所有