多元统计分析在数据挖掘中的作用

多元统计分析在数据挖掘中的作用

ID:34053384

大小:223.88 KB

页数:4页

时间:2019-03-03

多元统计分析在数据挖掘中的作用_第1页
多元统计分析在数据挖掘中的作用_第2页
多元统计分析在数据挖掘中的作用_第3页
多元统计分析在数据挖掘中的作用_第4页
资源描述:

《多元统计分析在数据挖掘中的作用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、维普资讯http://www.cqvip.com信息S-程大学学报Vo1.4No.4第4卷第4期2003年l2月JournalofInformationEngineeringUniversityDec.2003多元统计分析在数据挖掘中的作用陈伟志,魏振军,王春迎(信息工程大学信息工程学院,河南郑州45OOO2)摘要:本文从统计学与数据挖掘的联系与区别出发,介绍数据挖掘方法、步骤、目的,探讨统计q-在数据挖掘领域中的作用、多元统计分析方法的运用和所能解决的问题。在SAS系统的支持下,如果把多元分析方法与

2、其它数据挖掘技术结合加以灵活运用,应该会有更好的效果。关键词:数据挖掘;统计学;多元分析;SAS系统中图分类号:O212文献标识码:A文章编号:1671—0673(2003)04—0022—04TheRoleoftheMulti-VariableAnalysisinDataMiningCHENWei—zhi,WEIZhen—jun,WANGChun—ying(InstituteofInformationEngineering,InformationEngineeringUniversity,Zheng

3、zhou450002,China)Abstract:Startingfromthediscussionoftherelationsanddiferencesbetweenstatisticsanddatamining,thearticleintroduceSthemethods,stepsandtheendofDM,anddiscussesthefunctionofstatisticsinthefieldofDM,theapplicationofmulti—variableanalysisandthe

4、problemsitcansolve.WiththesupportoftheSASsystem,itCanhelpachievebetterresultsifthemethodsofmulti—variableanalysisandotherDMtechnologiesaleputtouse.Keywords:datamining;statistics;multi—variableanalysis;SASsystem性:目标是海量数据的处理,不是一般意义上的统1统计学与数据挖掘计分析;分析的任务是找出

5、特征、规律、联系,而不是验证;必须多种技术结合,而不只是统计分析。统计学是“数据科学”,即收集、分析、展示及解统计学有着较完善的理论基础和很强的数学释数据的科学。数据挖掘是从大量的、不完全的、背景:在采用一个方法之前先要证明,而不是象计有噪声的、模糊的、随机的数据中,提取隐含在其中算机科学和机器学习那样注重经验。有时候同一的、人们事先不知道的、但又是潜在有用的信息和问题的其它领域的研究者提出一个很明显有用的知识的过程。计算机技术、统计方法、各类算法的方法,但它却不能被证明(或还不能被证明),在统结合推

6、动了数据挖掘技术的快速发展。计学上则说该方法缺乏理论基础,没有说服力。数统计学和数据挖掘有着共同的目标:发现数据据挖掘的一个特定属性就是要处理的是一个大数中的结构或模式。数据挖掘强调对大量观测到的据集。在统计学中,由于可行性的原因,我们常常数据库的处理。它是涉及数据库管理,人工智能,得到的只是一个或一些样本,但是需要描述样本取机器学习,模式识别,及数据可视化等学科的边缘自的那个总体。而数据挖掘问题常常可以得到数学科。用统计的观点,它可以看成是通过计算机对据总体,例如关于一个公司的所有职工数据,数据大量

7、的复杂数据集的自动探索性分析。但数据挖库中的所有客户资料,去年的所有业务等。在这种掘与统计分析是不同的,不能认为数据挖掘是统计情形下,传统统计推断就没有价值了。在这里,我学的分支。们可以很方便的应用评估函数:针对数据足够的表相对传统统计分析而言,数据挖掘有下列特述。事实是,常常所关注的是模型是否合适而不是收稿日期:2003—05—12作者简介:陈伟志(1975一),男,湖北蕲春人,信息工程大学硕士研究生,主要研究方向为概率统计与数据挖掘方向。维普资讯http://www.cqvip.com第4期陈伟志

8、等:多元统计分析在数据挖掘中的作用23它的可行性,在很多情形下,使得模型的发现很容金融领域可以很容易地确定贷款申请者是属于高易。但当我们应用概率陈述时则不会得到这些模风险的还是低风险的。该方法精确度和效率高,结型的特征。果易懂,故常用。统计学在对数据进行分析时,首先要建立统计(2)神经网络(neuralnetwork)模型,模型的好坏直接影响统计推断结果。相对于该方法建立在自学习的数学模型基础上,可以统计学而言,准则在数据挖掘中起着更为核心的作对大量复杂

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。