概率论与数理统计中 方差与协方差 在数据分析中的应用.doc

概率论与数理统计中 方差与协方差 在数据分析中的应用.doc

ID:56484152

大小:35.50 KB

页数:5页

时间:2020-06-24

概率论与数理统计中 方差与协方差 在数据分析中的应用.doc_第1页
概率论与数理统计中 方差与协方差 在数据分析中的应用.doc_第2页
概率论与数理统计中 方差与协方差 在数据分析中的应用.doc_第3页
概率论与数理统计中 方差与协方差 在数据分析中的应用.doc_第4页
概率论与数理统计中 方差与协方差 在数据分析中的应用.doc_第5页
资源描述:

《概率论与数理统计中 方差与协方差 在数据分析中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、概率论与数理统计中方差与协方差在数据分析中的应用作者:罗齐关键字数据分析概率论与数理统计方差协方差摘要在实验过程中,通常会得到大量的原始数据。本文简要介绍了如何使用概率论与数理统计学中的方差以及协方差的概念,对数据进行初步的分析,以从纷乱繁杂的原始数据中,得到相对重要的,低冗余的,可供进一步使用的数据。正文在科学实验中,一般情况下,我们会得到大量的复杂的数据。这些数据中来自多个方面,既包含有用的信息,也有噪音和冗余。如何从大量的数据中取出对我们而言有用的信息,从复杂数据中分析出其中隐含的规律和结论,是极其重要的。在下文中,我们使用概率论和数理统计中方差和协方差的概念,分别对噪音和冗余进行简

2、要的分析和讨论。噪音:噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。如何衡量一个数据是否是噪音呢?根据相关知识,我们不妨假设,变化较大的信息被认为是信号,变化较小的则是噪音。而一个信息可视作一个随机变量,因此,一个信息的变化程度的大小,即可以转化为对其对应的随机变量的稳定性分析。由在本学期修读的“概率论与数理统计”课中我学习到,“要进一步的研究问题的实质(分析信息的稳定性),必须了解它(随机变量)的取值与平均值的偏离程度。”那么,使用什么来表示偏离程度比较合适呢?在这里,我们使用课件中使用的“储蓄所吸收存款额”的例子(具体内容不再列出):“若用随机变量与其

3、数学期望的偏差的期望值来表示这偏离程度”“从计算的结果上看,由于诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差的期望值均为“0”,这样就掩盖了实际偏差的的大小。”因此,“为了克服诸偏差的正负抵消,真正反映出实际偏差的大小程度,通常采用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度。”“从计算的结果上看,由于克服了诸偏差的正负抵消,这两个储蓄所的月吸收存款额与其数学期望的偏差平方的期望值就真正反映出实际偏差的大小程度:甲储蓄所的月吸收存款额比乙储蓄所的月吸收存款额来得“稳定”。”“通常称用偏差平方的数学期望来描述随机变量的取值与平均值的偏离程度为“方差”。”到这里可

4、以得出,衡量一个信号是否是噪音,可通过计算其对应随机变量的方差并与其余信号比较得到。显然的,方差较大,是主信号或主要分量;而方差较小的分布则被认为是噪音或次要分量。在数据分析中,噪音的衡量有多种方式,最常见的定义是信噪比(signal-to-noiseratio,SNR),即方差比:。比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。至此,滤除噪音的问题可以简化为,找出一组代表数据,使得其信噪比尽可能大。冗余有时在实验中引入了一些不必要的变量,可能会使两种情况:1)该变量对结果没有影响;2)该变量可以用其它变量表示,从而造成数据冗余。从统计学上说,如果两个观测变量是

5、相互独立的,那么可以得到,它们之间的信息没有冗余。但如果两个观测变量相关,那么他们之间肯定存在冗余的信息。剔除高度冗余的信息,对数据的分析是至关重要的一步。而如何判断信息是否存在冗余,以及如何衡量信息之间的冗余程度,使我们接下来要讨论的问题。在概率论与数理统计课程中,我们引入了协方差的概念:“随机变量的数学期望及方差都只刻画了一个随机变量的某一方面的特征,而协方差与相关系数是刻画两个随机变量之间关系的数字特征。E{[X-E(X)][Y-E(Y)]}.称为随机变量X与Y的协方差,记为:Cov(X,Y)。”显然,Cov(X,Y)=0,当且仅当X,Y相对独立。从协方差的定义中可以打得到,协方差可

6、以表示信息间冗余度的。而在实验中,我们得到的数据往往数量巨大,查阅相关统计学书籍,可得到大量数据协方差的组织表示方法:协方差矩阵。对于一组具有m个观测变量,n个采样时间点的采样数据,将每个观测变量的值写为行向量,可以得到一个m×n的矩阵X。定义协方差矩阵为:。对协方差矩阵进行分析,容易发现协方差矩阵性质如下:1.是一个m×m的平方对称矩阵。2.对角线上的元素是对应的观测变量的方差。3.非对角线上的元素是对应的观测变量之间的协方差。协方差矩阵包含了所有观测变量之间的相关性度量。更重要的是,这些相关性度量反映了数据的噪音和冗余的程度。在对角线上的元素越大,表明信号越强,变量的重要性越高;元素越

7、小则表明可能是存在的噪音或是次要变量。在非对角线上的元素大小则对应于相关观测变量对之间冗余程度的大小。结论至此,大量信号的分析,通过使用概率论与数理统计中的随机变量,方差,协方差以及矩阵,已经转化成为了对协方差矩阵的优化与分析。附录实际上,通过基变换对协方差矩阵进行优化,找到相关“主元”,得到新的基向量所对应的“主元排序”,是PCA(Principalcomponentanalysis,主元分析)的主要内容,可以方便的对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。