数据挖掘方法论(SEMMA)

数据挖掘方法论(SEMMA)

ID:38493458

大小:39.00 KB

页数:5页

时间:2019-06-13

数据挖掘方法论(SEMMA)_第1页
数据挖掘方法论(SEMMA)_第2页
数据挖掘方法论(SEMMA)_第3页
数据挖掘方法论(SEMMA)_第4页
数据挖掘方法论(SEMMA)_第5页
资源描述:

《数据挖掘方法论(SEMMA)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SAS数据挖掘方法论 ─ SEMMA(2009-07-2021:15:48)Sample─数据取样Explore─数据特征探索、分析和予处理Modify─问题明确化、数据调整和技术选择Model─模型的研发、知识的发现Assess─模型和知识的综合解释和评价Sample──数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。通过数据取样,要把

2、好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据

3、对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。Explore──数据特征探索、分析和予处理前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来

4、设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来

5、。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了

6、这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。Modify──问题明确化、数据调整和技术选择通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确;这时要尽

7、可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。Gartnergroup在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。针对问题的需要可能要对数据进行增

8、删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。