复杂性研究与简单性研究_数据挖掘与统计学的关系探析

复杂性研究与简单性研究_数据挖掘与统计学的关系探析

ID:46418607

大小:86.50 KB

页数:3页

时间:2019-11-23

复杂性研究与简单性研究_数据挖掘与统计学的关系探析_第1页
复杂性研究与简单性研究_数据挖掘与统计学的关系探析_第2页
复杂性研究与简单性研究_数据挖掘与统计学的关系探析_第3页
资源描述:

《复杂性研究与简单性研究_数据挖掘与统计学的关系探析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、%1.5w数据挖掘是20世纪末逐渐形成的一个交叉学科。从广义上讲,数据挖掘(DataMining)就是从巨大的数据体系或数据库电挤炼出人们感兴趣的东西(可能在意料之屮,也可能在意料之外)或者说,从庞大的观察数据集中捉炼并分析出不可轻易察觉妙断言的关系,最后给出一个有用的并可以理解的结论。简单地说,数据挖掘就是在数据中发现模式叫统计学也有一套成熟的方法可以对数据进行预测,如聚类分析、方差分析等。由于数据挖掘和统计都是耍对数据进行收集处理,都有着从数据中发现模式这样的目标并且它们所使用的方法也有一些交叉,使得许多学者对二者的

2、关系进行了研究。如数据挖掘与统计学的关系浅析网一文认为数据挖掘是统计学的一个分支,統汁学与数据挖掘的比较分析》⑶和數据开采与统计学》[4]从学科性质的角度论述了他们的异同点。我认为他们的论述有合理的地方,也有不足的一面。我认为要正确看待二者的本质关系,耍从复杂性科学研究的角度來阐述。复杂性科学(ScienceofComplexity)是一种新兴的边缘、交义学科。复杂性科学打破了线性、均衡、简单还原的传统范式,%力于研究非线性、非均衡杂系统带來的种种新问题.复杂性科学的出现极大地促进了科学的纵深发展。使人类对客观事物的认识

3、由线性上升到非线性、由简单均衡上升到非均衡、由简E还嫖论上升到复杂整体论。因此,复杂性科学的诞生标志着人类的认识水平步入了一个崭新的阶段,将是科学发展史上又一个新IK里程碑。具体内容可参阅文献阳。数据挖掘可利用还原论方法解决芨杂系统屮部分的、线竹的、简单的性质,还可利用非还原论方法发现复杂系统中非线性的榕体涌现出來性质,而统计仅仅只能做到前者。%1.数据挖捌与统计学关系探析1、统计学研究対彖和方法统计学是一门历史悠久的学科,在计算机发明Z前就已出现,至今已有儿百年的历史。它以随机现彖为研究对彖(随机现彖具肖这样的特征:即

4、在个别实验中其结果呈现不确定,但在夭量重复实验中其结果乂具有规律性),主耍研究如何搜集、整理、分析数据,并以此为依据,对总体特征进行推断。统计学常用的方法有:(1)抽样分布:统计学研究问题的方法是从特殊到一般,从部分到全局,即用样本来推断总体。抽样分布解决怎样从一个总体抽取出样本才具有普遍意义。样本是对总体进行n次垂复试验或n次重复观察,而每一次试验或观察是相互独立的,因此抽样问题就是研究n个”独立同分布”的随机变量的函数问题。这里"独立”是指n次重复试验互不影响,”同分布”是这n个随机怅左米头现河怦釵”占H'JI。(2

5、)回归分析所训回归分析法,是在掌握人量观察数据的基础变晁与自变晁之间的回归关系函数表达式(称回归方是一种从爭物因杲关系出发进行预测的方法。根据统得因果关系的相关系数,相关系数越人,因果关系越密相关系数就可确定回归方程,预测今后事物发展的趋求一个变量对另一个变量的因果关系,叫一元回归分个变量Z间的因果关系,叫多元回归分析。此外,回归依据描述自变量与因变量Z间因杲关系的函数农达式述是非线性的,分为线性回归分析和lh线性回归分析回归分析法是绘基本的分析方法,遇到非线性回归问助数学手段化为线性冋归问题处理。(3)主成分分析主成分

6、分析将分散在一组变量上的信息集中到某指标(主成分)上的分析方法,以便利用主成分描述数据构,达到数据解鄴的目的。这里而主要通过求特征向和运用最小二乘法得到主成分。将主成分分析推广,就析。(4)聚类分析为了描述整体,经常要将抽样的样品进行分类,因究样品Z间的关系。统计学是将每一个样品看作m维点,并在空间定义几何距离,距离较近的点归为一类,的点应属于不同的类。定义距离的方法通常有绝对值距离、契比雪夫距离等。根据以上分析可看出,统计学的思想是将整体分用求和、求方差、求标准差和求极限等方法解决部分此归纳出整体的性质。这是一种通过线

7、性的、叠加的手解整体数据的思想,是典型的还原论思想。这种思想在数据的分类和估计问题中做出了不平凡的贡献。统计理论是建立在大数定律基础上的,即要求样足够多,(总体参数)=li叫_8(样本参数)。然而在实际工得大样本是闲难的。另外,还耍求先假设样木服从某一布函数,然后利川样本数据对分布41的参数进行估计,定量分析之目的。但这种参数估计方法随着数据维数样木数目的要求呈指数增长。因此,面临人规模聂变量据分析问题,统计理论已无能为力。2、数据挖掘方法和应用近十几年,随若科学技术的飞速发展,经济和社会极大的进步,与此同时.在齐个领域

8、产生了大量的数据往往具有以下特点:海量、动态更新、不完整、兀余、样本和异常性。传统的统计方法难以奏效。人们结合理,人工智能,机器学习,模式识别,统计学等技术,提数据挖掘足一门交义学科,它除『坯用统让学的笊用万法(如上所述),还结合了其它学科,运用了许多新的方法和工具:(1)遗传算法。生物的演变、进化是一个复杂系统。遗

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。