大数据挖掘的均匀抽样设计及数值分析.pdf

大数据挖掘的均匀抽样设计及数值分析.pdf

ID:57923071

大小:303.14 KB

页数:4页

时间:2020-04-12

大数据挖掘的均匀抽样设计及数值分析.pdf_第1页
大数据挖掘的均匀抽样设计及数值分析.pdf_第2页
大数据挖掘的均匀抽样设计及数值分析.pdf_第3页
大数据挖掘的均匀抽样设计及数值分析.pdf_第4页
资源描述:

《大数据挖掘的均匀抽样设计及数值分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3O卷第4期统计与信息论坛2015年4月Vo1.30No.4Statistics&InformationForumApr.,2015【统计理论与方法】大数据挖掘的均匀抽样设计及数值分析李毅,米子川(山西财经大学统计学院,山西太原030006)摘要:就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。

2、结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。关键词:均匀设计;数据挖掘;大数据抽样中图分类号:C812:F222.3文献标志码:A文章编号:1007-3116(2015)04—00O3一O4录的数据是一种结构完整、信息充分的“小数据”;其一Z1÷、-4I口次,就资料收集目的而言,大数据收集的目的也是不随着社交媒体、手机APP、安全监视器、天文望同的,其收集过程和目的并非统计分析的目的,但对远镜、卫星、工业生产线和各种传感器等基于互联

3、网于价值的提取二者是相同的,并在大数据的分析过的硬件和应用软件的普及,来自不同过程的统计数程中,希望从数据中发现一些有趣的特征或模式,藉据不断产生,其物理特征包含文字、图像、音频、纯数此提供有价值的信息以供决策参考;第三,大数据的据等等,这些数据数量庞大、结构复杂且维度多规模显著地大于传统的统计数据,但是所蕴涵的信样_L1]。面向大数据的统计分析,存在三个方面的息量则相对稀少,一般被称为数据的“稀疏性”。根困难和挑战:首先,由于大数据的背景分布缺乏先验据统计学基本理论,有用的样本量应该是越多越好,信息,大多数分析过程是从单纯的数据出发,这种分但是大数据的信息贡献却不是这样,数据量

4、大不一析过程被称为“冷启动”。通常大数据的产生和收集定意味着有价值的信息就会增多,大量的虚假知识在事先并没有特别的目的,或者收集者的目的并不甚至会损害数据信息,因此“大数据等于总体”的思明确,因此无法获得显著的先验分布信息。与此相想是错误的。此外,大数据建模时,数据本身的属性反,在传统的统计数据采集方法中,实验设计则是一也会成为统计建模和分析的难题,如高维度、时间序个目的明确的数据搜集过程,即在一定的控制变量列特性、变量间的复杂关系等等,都是亟待解决的问和区组条件下完成对数据的重复测度和记录。实验题。事实上,对于较小的数据集,上述问题可能不存设计所得的资料是通过事先科学设计的,F

5、isher提在困扰,但对于大数据则可能就是一个严重的问题。出的原则是“均衡分散,整齐可比”,说明实验设计记所以,如何从大数据中汲取有价值的信息是统计学收稿日期:2014—11-24;修复日期:2015一O1-23基金项目:国家自然科学基金项目《在家系序列数据中同质性检验的连锁研究9(31470070);山西省自然科学基金项目《基因型模式在基因组选择中的整合研究9(2014011030-4);山西省回国留学人员科研资助项目《基于统计学习理论的基因组选择研究)(2013-72)作者简介:李毅,男,山西太原人,理学博士,硕士生导师,研究方向:应用统计学,生物统计学,数据挖掘;米子川,男

6、,山西祁县人,统计学博士,副教授,硕士生导师和MPA导师,研究方向:应用统计学,抽样调查与数据分析。3统计与信息论坛面临的一项重要挑战。其中代表P集合中包含于[0,]从统计学角度看,面对大数据分析中的上述问中的点的比例,Vol(EO,z])表示[O,]的体积,且题,随机抽样仍然是最直接的解决方法,可以利用抽假设整个定义域的总体积为1,所以Vol(Eo,])又样技术从相同数据结构的大数据集中获得相对小的随机样本。必须指出的是,抽样并不能告诉人们有可以被视为[O,]占整个定义域的体积比例。因此,用的信息在哪里,而是加速找到有用特征的工具。用Vol(Eo,z])跟的距离大小来表示本文的

7、主要思想是:在大数据总体的参数估计和统集合在定义域中分布的均匀程度,也就是说计推断问题中,为了节约计算成本,笔者希望尽可能减少样本的数据量,且同时应得到一个良好的响应lT/一Vol(Eo,z])l越小,代表p分布越曲面来描述复杂的大数据结构,均匀设计便是达到均匀。上述目标的一个有效方法,该方法是中国数学家方当采用偏差法为准则来做均匀设计时,定义域开泰教授和王元教授于1980年首次提出,主要目的的原点明显扮演着很特殊的角色。事实上,若从不同是在定义域上寻找均匀布点。大量相关文献证实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。