欢迎来到天天文库
浏览记录
ID:56714720
大小:854.06 KB
页数:35页
时间:2020-07-06
《正态分布的前世今生.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、正态分布的前世今生(上)作者:rickjin(靳志辉)校对:汤涛,香港浸会大学数学讲座教授重新整理一下,把格式调整好,公式重新敲了一下(网上部分是无法显示的LaTeX,部分是图片),整理成PDF,不敢写名了…神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差就服从了正态分布。创世纪-数理统计一、正态分布学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式:2(x)12f(x)e2(1)2也非常具有数学的美感。其标准化
2、后的概率密度函数:2x1f(x)e2(2)2更加的简洁漂亮,两个最重要的数学常量π、e都出现在了公式之中。在我个人的审美之中,它也属于top-N的最美丽的数学公式之一。如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。图1正态分布的钟形曲线正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的
3、头像和正态密度曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。图2德国10马克纸币图3纸币上的正态分布曲线图4德国钢镚正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现误差服从这个奇妙的分布的。直到我读研究生的时候我的导师给
4、我介绍了陈希儒的《数理统计简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。正态分布的这段历史是很精彩的,我们通过讲几个故事来揭开她的神秘面纱。二、邂逅,正态曲线的首次发现第一个故事和概率论的发展密切相关,主角是棣莫弗(DeMoivre)和拉普拉斯(Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理:n(cosisin)cos(n
5、)isin(n)(3)古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努力都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation),就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A、B两人在赌场里赌博,A、B各自的获胜概率是p,q1p。赌n局,若A赢的局数
6、Xnp,则A付给赌场Xnp元,否则B付给赌场npX元。问赌场挣钱的期望值是多少?问题并不复杂,本质上是一个二项分布,最后求出的理论结果是2npqb(n,p,np)(4)其中iinib(n,p,i)Cpq(5)n是常见的二项概率。但是对具体的n,要把这个理论结果实际计算出数值结果可不容易,因为其中的二项公式中有组合数。这就驱动DeMoivre寻找近似计算的方法计算。X~B(n,p)与此相关联的另一个问题,是遵从二项分布的随机变量,求X落在二项分布中心点一定范围的概率PP(
7、Xnp
8、
9、d)是多少。d1对于p的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,2幸运的是棣莫弗和Stirling处在同一个时代,而且二人之间有联系,Stirling公式是在数学分析中必学的一个重要公式(事实上斯特林公式的形式其实是棣莫弗最先发现的,但是斯特林改进了这个公式,改进的结果为棣莫弗所用):nnn!2n(6)e1733年,棣莫弗很快利用Stirling公式计算取得了重要的进展。考虑n是偶数的情形,令二项概率n1i1b(i)bn,,iCn(7)
10、22通过Stirling公式做一些简单的计算容易得到:nbd2n222dbexp(8)2nnnb2于是有:2n22dbdexp(9)22nn使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到:cncn2X1cn22iPbiexpn2nicn2icn2nn22c112i2exp
此文档下载收益归作者所有