数据挖掘实验报告.doc

数据挖掘实验报告.doc

ID:50127906

大小:831.50 KB

页数:11页

时间:2020-03-05

数据挖掘实验报告.doc_第1页
数据挖掘实验报告.doc_第2页
数据挖掘实验报告.doc_第3页
数据挖掘实验报告.doc_第4页
数据挖掘实验报告.doc_第5页
资源描述:

《数据挖掘实验报告.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘实验报告——药物研究专业:学号:姓名:时间:2011.12.08一、实验目的1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义;2、熟悉SPSSClementine软件的功能,并学习使用该软件对数据进行分析;3、对该软件提供的数据DRUG1n进行分析,了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。二、实验环境系统环境:WindowsXP软件环境:SPSSClementine11.1软件简介:作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘

2、功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。SPSSClementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、Sex(性别)、BP(血压)、Cholesterol(类胆固醇含量)、Na(Na含量)、K(K含量)、Drug(药品种类)。三、实验数据本实验所使用的数据是SPSSCl

3、ementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、Sex(性别)、BP(血压)、Cholesterol(类胆固醇含量)、Na(Na含量)、K(K含量)、Drug(药品种类)。四、实验步骤与分析过程本次实验,首先DRUG1n中的数据进行了一个简单的分析和解释,比如说Drug(药品)的分布情况、Na和K的含量等的分析。接着决策树分析的方法对数据进行分类和分析。本实验所建立的数据流如图1所示,图1具体的分析步骤如下:第一部分:新建工作流,附加数据1、打开软件,新建一个流,命名“Drug分析”。从数据源中选择“可

4、变文件”拖入工作框,双击附加添加。如图2。图2第二部分:步骤1-4所示对Drug1n的数据进行一个简单探索,了解数据的组成规律。步骤5、6所示,对字段进行选择重新分析Na和K的浓度.步骤7-11,先对数据进行过滤后执行C5.0分析。图31、浏览数据内容。在输出选项中选择“表格”节点加到数据流中,执行该节点,如图3中的1-1步骤,所生成的数据表名将列在流管理窗口的输出选项中,结果如图4所示。图42、观察各个变量的数据分布特征。在输出选项卡中选择“数据审核”节点添加到数据流中,执行该节点,如图3中的1-2步骤,所生成的数据如图5所示。图5可以看到,该数据有2

5、00个样本,7个字段。对Age、Na、K这三个数值型变量,计算且输出最小值、最大值、均值、标准值、偏系数等基本描述统计量。数据显示,病人的年龄差距比较大。3、不同血压特征病人的药物选择。在“图形”选项卡中选择“网络”节点加到数据流中,设置节点参数指定绘制关于Drug和BP的网状图,执行该节点,如图3中1-3步骤,所生成的图形如图6所示。图64、观察服用不同药物的病人唾液中钾钠的含量情况。在“图形”选项卡中选择“图形”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同的Drug的病人采用不同颜色的点,执行该节点,执行该节点,如图3中1-4步

6、骤,所生成的图形如图7所示。图75、观察服用不同药物病人唾液中钠钾的浓度比例情况。为了更准确地评价药物状况单纯的。在“字段”选项卡中选择“导出”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同的Drug的病人采用不同颜色的点,执行该节点,执行该节点,如图3中5步骤。6、从导出的新字段中,选择“图形”中的“直方图”选项卡,设置节点参数绘制Na/K的直方图,且服用不同药物的病人采用不同的颜色。执行该节点,如图3的步骤6,所生成的图形如图8所示。图87、全面分析决定药物所选择的其他影响因素。通过前面的分析,似乎对选择DrugY的依据有了一定的

7、结论,但是没有考虑Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同的药物依据。首先,在建模中将不再直接采用Na和K的变量,而是采用Na/K,因此应先将变量K和Na删掉。在“字段”中选择“类型”节点加到数据流中,如图3中的步骤7,如图9所示。图98、然后,指定建立模型过程中各个变量的作用,这里的Age、Sex、BP、Cholesterol、Na/K为解释变量,称为模型的输入变量,Drug为被解释变量,称为模型的输出变量,在“字段”选项卡中选择“类型”节点加到数据流中,设置参数指定不同变量的作用角色,如图3中步骤8,如图10所示。

8、9、最后,在“模型”选项卡选择C5.0节点加到数据流中。选择C5.0模型,执行C

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。