欢迎来到天天文库
浏览记录
ID:33580098
大小:432.41 KB
页数:6页
时间:2019-02-27
《大数据时代统计学面临的机遇与挑战》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据第3l卷第1期2014年1月统计研究StatisticalResearchV01.31.No.1Jan.2014大数据时代统计学面临的机遇与挑战耿直内容提要:大数据给统计学带来了机遇、挑战和紧迫感。本文描述大数据的环境,利用大数据的目的和大数据带来的变革;介绍国内外有关大数据的研究动向;探讨大数据包含的信息,大数据的预处理、抽样和分析方法。关键词:大数据;抽样;数据分析方法论中图分类号:C829.2文献标识码:A文章编号:1002—4565(2014)01—0005—05OpportunitiesandChallengesin
2、theAgeofBigDataforStatisticsGengZhiAbstract:Bigdatabringsopportunity,challengesandurgencyforstatistics.Thispaperdescribestheenvironmentsofbigdata,thegoalofbigdataandtherevolutionbybigdata.Anditalsointroducestheresearchtrendsforbigdataathomeandabroad.Theinformation,prepr
3、ocess,samplingandanalysisofbigdatahavebeendiscussed.Keywords:BigData;Sampling;MethodologyofDataAnalysis一、引言在人类利用观察认知自然的方法论发展的历程中,最初神学、哲学和科学合为一体,巫术、占星术和宗教是哲学和科学的前身。人类旧石器期用神学解释自然,根据蛙鸣预测下雨,用巫术和占星术祈祷、预测和干预自然。中国古代利用阴阳太极图和八卦图作为思辨模型,分析和解释自然和人文社会的现象。古希腊文明孕育了演绎逻辑、归纳逻辑。文艺复兴前后哲学家提
4、出观察和试验的方法,培根(FBacon,1620,新工具)提出通过观察实验,运用三表法:存在与具有表、差异表、程度表。穆勒(JSMill,1843,逻辑体系)提出归纳四法:求同法、求异法、共变法、剩余法。在统计方法论的发展中,贝叶斯(TBayes,1764)提出逆概率方法,利用观察结果推断事件的概率。高尔顿(FGahon,1886)将变量间的相关关系进行了形式化,提出了相关系数,进一步在相关性的基础上提出了回归预测的方法。皮尔逊(KPerson,1900)提出了拟合优度检验的方法,使得人们能够利用概率度量观测现象与科学假说的拟合程度。
5、在此后的一个多世纪中统计方法有了突飞猛进的发展,被广泛地应用到自然科学、经济金融和人文社会科学的各个领域。在人类利用观察探索自然和社会规律的历程中,从远古时代的观察加臆想,古希腊时代的观察加理性推理,文艺复兴时代的试验加理性推理,直到现代的抽样加统计模型。当今时代,二方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。一些人们在通宵达旦地制造和收集数据,他们相信这些数据会对别人有用。也有一些人们脱离了实验室,仅依靠网络数据从事
6、研究。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破。本文在第二部分描述大数据的形式和环境,以及利用大数据的目的;第三部分描述大数据带来的变革;第四部分介绍国内外有关大数据的研究动向;第五部分探讨大数据的信息问题;第六部分介绍大+本文获国家自然科学基金项目“因果推断的统计方法”(批准号11171365)和“生物统计”(批准号11331011)的资助。本文
7、为第十七次全国统计科学讨论会特邀论文。万方数据·6·统计研究2014年1月数据需要的预处理、抽样和分析方法,特别地介绍了网络图模型对大数据分析的潜在用途;最后一部分是结束语,讨论大数据给统计学带来了机遇、挑战和紧迫感。二、大数据及其目的狭义地讲,大数据是一个大样本和高维变量的数据集合。针对样本大的问题,统计学可以采用抽样减少样本量,达到需要的精度。关于维数高的问题,需要变量选择、降维、压缩、分解。但认知高维小样本存在本质的困难。广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各领域
8、的数据集相互重叠连成了一片数据的海洋。各学科之间数据融合和贯通,学科的边界已重叠和模糊。大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形。我认为当代的大数据不仅数据量大,还包括多种类型数据和大量数据项
此文档下载收益归作者所有