欢迎来到天天文库
浏览记录
ID:28860135
大小:99.00 KB
页数:17页
时间:2018-12-14
《高维大数据统计分析报告报告材料》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、实用标准文案高维、相依和不完全数据的统计分析李国英中国科学院数学与系统科学研究院系统科学所现代科学技术和社会经济的许多领域都遇到高维、相依和不彻底数据的统计分析问题,它是目前统计学应用和理论中面临困苦最多、挑战最严峻,也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识,分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况,然后介绍我国学者在相干领域中的研究成果,最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉,以期得到国内同仁对统计学发展更多的关心和反对。由于笔者程度和知识所限,定有疏漏和不妥之处,欢迎批评指正。统计学(statistics我国习惯上称为数
2、理统计)研究效地收集、分析和解释数据,以提取信息、建立模型,并进行推断、预测和决策的方式和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据(包括各种资料),再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力,也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。大致从十七世纪开始,由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而蒙发了统计学。例如,17世纪中期,J.Graunt在人口死亡等社会问题的研究中,发展了最早的描述统计;18世纪末19世纪初,A.M.Legendre和C.
3、F.Gauss在研究测地学和天体物理的数据分析中,提出了最小二乘法和误差的正态分布理论;19世纪中期,F.Galton在研究生物遗传规律的过程中发明了相干分析和回归分析方式。关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》(《数理统计与管理》,1998年第2期至1999年第6期)。进入二十世纪以后,相继出现了几位伟大的数学家和统计学家K.Pearson、R.A.Fisher、A.N.Kolmogrov、N.Neyman、E.Pearson和A.Wald等,由于他们的奠基性工作,统计学方式和理论都有了很大发展,到四十年代中期成为一门成熟的学科。近五十多年,突飞猛进的社会经济和科学技术不
4、断提出各种各样的统计学问题,计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富,理论更加深刻,统计方式也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域,对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如,1984年美国《科学》杂志把顺计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项(第一项是塑料,第六项是电视,第十六项是计算机)。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系,许多大学还同时设有生物统计系或林业统计系等等;许多大企
5、业聘用统计学家为其解决统计问题,例如美国的贝尔公司就拥有数十人的统计学家队伍,著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在,统计学已经成为许多学科领域必不可少的工具;它还与一些学科相结合形成了相应的专业统计,例如,生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。精彩文档实用标准文案在当今的信息和知识经济时代,人类研究的科学和社会问题更加高深、更加复杂、更加庞大,有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复
6、杂的问题。例如,复杂系统的统计建模,经济金融中的预测和决策,高维、定性和不彻底数据的统计分析,数据库等巨型复杂数据的信息提取和知识发现,相依变量和动态系统的统计规律,小样本和相干信息的统计推断,信号和图象的统计处理等等。因此,统计学正面临着前所未有的巨大挑战和机遇,其中高维、相依和不彻底等复杂数据的统计分析是一个带有普遍墟履突出难题。例如,雷达网、信息网等接收和传输的信号数据,卫星遥感观测的图象数据,文字语焰履记录数据,DNA和蛋白质构造的测试数据,全国乃至全球的气象和环境数据,人口、企业、教育、科技、医疗卫生等社会调查数据,以及股市、保险、信用卡、房地产等经济金融数据,都是维数很高(数十、
7、数百乃至上千维)、构造十分复杂的数据,许多数据还是前后相依(不独立)的;在工业、国防、天文和医学等领域存在大量的不彻底数据,即人们不能得到所关心的某些变量的数值,而只知道它们所在的区域,甚至彻底不知道部分变量钥锟分场合的数值(即缺失数据)。而且在实际问题中,往往同时遇到多种情况。例如,来自复杂现象的数据一般是高维的,许多时候还是相依的、动态的,有时还含有不彻底数据;图象和信号可以转化为高维数据处理,而信号一般
此文档下载收益归作者所有