重构大数据统计

重构大数据统计

ID:22828438

大小:1020.93 KB

页数:74页

时间:2018-10-31

重构大数据统计_第1页
重构大数据统计_第2页
重构大数据统计_第3页
重构大数据统计_第4页
重构大数据统计_第5页
资源描述:

《重构大数据统计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ݙᆍㅔҟབྷᮠᦞⲴ㔏䇑䇑㇇ᱟ䘋㹼ᮠᦞ᧒㍒઼࠶᷀᥆ᧈⲴส⹰ˈ൘ᇎ䱵ᓄ⭘ѝՊ䙷ࡠєњ䰞仈˖ањᱟ䴰㾱⭘ཊቁ䍴Ⓚ˗ਖањᱟ䇑㇇ᰦ䰤ˈᆳޣ㌫ࡠᮠᦞ᧒㍒࠶᷀Ⲵ᭸⦷઼᭸᷌DŽӪԜ䜭ᐼᵋ㣡ᴤቁⲴ䫡ˈᒦфᐼᵋ䇑㇇ᰦ䰤ᴤ⸝ˈնሩҾḀњ⺞ᇊⲴ䇑㇇䗷〻ˈᆳԜᱟᡀ৽∄ⲴDŽᵜҖ֌㘵ቡᱟӾ㔏䇑䇑㇇Ⲵ㇇⌅ޕ᡻ˈ䟽ᶴަ䇑㇇䗷〻ˈӾ㘼਼ᰦ䱽վ䍴Ⓚ⭘䟿઼䇑㇇ᰦ䰤DŽᵜҖᨀࠪҶа྇ᆼᮤⲴޣҾབྷᮠᦞ㔏䇑Ⲵ䇑㇇⨶䇪ˈवᤜᑨ⭘Ⲵ਴⿽㔏䇑䟿઼㔏䇑ᯩ⌅DŽสҾᵜҖ޵ᇩᔰਁⲴᮠᦞ࠶᷀ᐕާᐢ㓿൘䱯䟼ᐤᐤ䳶ഒ޵䜘Ⲵཊњ䜘䰘⭘ˈᒦਆᗇᱮ㪇᭸᷌DŽਖཆˈᵜҖ䘈ᨀ׋བྷ䟿Ⲵ⽪〻ᒿԓ⸱ᑞ

2、ࣙ䈫㘵䘋а↕Ҷ䀓㇇⌅㓶㢲ˈׯҾሶҖѝⲴᯩ⌅䘀⭘Ҿᇎ䱵䇑㇇DŽᵜҖ䘲ਸሩབྷᮠᦞ࠶᷀ᝏޤ䏓Ⲵ䈫㘵䰵䈫ˈᵜҖࡽ䶒ㄐ㢲∄䖳ᇩ᱃⨶䀓ˈवਜ਼Ҷᑨ⭘㔏䇑䟿Ⲵ䇑㇇˗ਾ䶒Ⲵ਴ㄐ㢲䴰㾱䈫㘵ާ༷аӋส⹰⸕䇶DŽᔪ䇞䈫㘵ṩᦞ㠚ᐡⲴޤ䏓઼ᐕ֌䴰㾱ˈ䘹ᤙ⴨ᓄⲴ޵ᇩ䘋㹼৲㘳DŽᵚ㓿䇨ਟˈнᗇԕԫօᯩᔿ༽ࡦᡆᢴ㻝ᵜҖѻ䜘࠶ᡆޘ䜘޵ᇩDŽ⡸ᵳᡰᴹˈץᵳᗵウDŽ೒к೼⠜㓪Ⳃ˄CIP˅᭄᥂䟽ᶴབྷᮠᦞ㔏䇑/ᶘᰝ㪇.üेӜ˖⭥ᆀᐕъࠪ⡸⽮ˈ2014.8˄བྷᮠᦞыҖ.䱯䟼ᐤᐤ䳶ഒᢰᵟыҖ˅ISBN978-7-121-22500-0Ę.₧䟽Ăę.₧ᶘĂċ.₧ᮠᦞ༴⨶ě.

3、₧TP274ѝഭ⡸ᵜമҖ侶CIPᮠᦞṨᆇ(2014)ㅜ030832ਧㆆࡂ㕆䗁˖ࡈⲾ䍓ԫ㕆䗁˖ᵾ࡙ڕঠࡧ˖ेӜѝᯠՏъঠࡧᴹ䲀ޜਨ㻵䇒˖⋣ेⴱй⋣ᐲ䐟䙊㻵䇒লࠪ⡸ਁ㹼˖⭥ᆀᐕъࠪ⡸⽮ेӜᐲ⎧⏰४зሯ䐟173ؑ㇡䛞㕆100036ᔰᵜ˖787×9801/16ঠᕐ˖25.25ᆇᮠ˖502ॳᆇ⡸⅑˖2014ᒤ8ᴸㅜ1⡸ঠ⅑˖2014ᒤ8ᴸㅜ1⅑ঠࡧᇊԧ˖79.00ࠑᡰ䍝Ҡ⭥ᆀᐕъࠪ⡸⽮മҖᴹ㕪ᦏ䰞仈ˈ䈧ੁ䍝ҠҖᓇ䈳ᦒDŽ㤕Җᓇ୞㕪ˈ䈧оᵜ⽮ਁ㹼䜘㚄㌫ˈ㚄㌫৺䛞䍝⭥䈍˖˄010˅88254888DŽ䍘䟿ᣅ䇹䈧ਁ䛞Ԧ㠣zlts@ph

4、ei.com.cnˈⴇ⡸ץᵳѮᣕ䈧ਁ䛞Ԧ㠣dbqq@phei.com.cnDŽᴽ࣑✝㓯˖˄010˅88258888DŽ第1章基本概念本章将简要介绍一些最基本的概念:数据类型、变量、总体、样本、参数和统计量,并通过具体的例子和说明介绍本书常用的分布式计算思想,为读者深入阅读本书作铺垫。1.1数据类型我们接触到的数据有很多,例如:用户姓名、性别、交易金额、商品单价、用户评分、交易时间等。按照所采用的计量尺度不同,可以分为三类:名义数据、有序数据和数值型数据。1.名义数据名义数据(NominalData)是指对事物分类的结果

5、不区分顺序,但有分类尺度计量形成的数据。各个名义数据间无大小、高低和等级之分,唯一可行的是对发生的频数进行计算。例如,用户姓名和性别都为名义数据。名义数据可以用数字表示,例如,1表示男,0表示女。显然,这里的1并不意味着比0大。2.有序数据有序数据(OrdinalData)是指对事物分类的结果有顺序、有分类尺度计量形成的数据。该类型数据可以进行排序操作,也可以对发生的频数进行计算。例如:用户评分(好、中、差),受教育水平(小学、初中、高中、大学及以上)。有序数据也可用数值表示,例如:对评分用3表示好,2表示中,1表

6、示差;对受教育水平用1表示小学,2表示初中,3表示高中,4表示大学及以上,其中的4意味着比2受教育水平更高。其数值计算结果也没有意义,例如:1+1+1=3不能说明3个差评等于一个好评;2+2=4不能说明受了两次初中教育相当于大学毕业。3.数量数据数量数据(QuantitativeData)是按自然单位、度量衡单位、价值单位对事物进行测量的结果,该结果表现为具体的数值,取值为实数,可以进行所有的计算(求和、平均值等),包括前两种数据类型的排序和计算发生的频数。例如:购买商品的个数、交易金额等。上述三种数据类型的关系如

7、图1-1所示。名义数据(可求频率分布)有序数据(可进行排序操作)数量数据(可进行所有计算)图1-11.2总体和样本说明事物某种特征的概念,称为变量(因素或者元)。例如:灯泡的寿命、购物时间、物品单价、物品个数等。个体是由一个或多个变量(多元或多个因素)构成的。例如:某个灯泡的寿命是1200小时;一条网购记录为“用户名称:张三;购物时间:2013-9-1;物品单价:99.99;物品个数:10”。包含所研究的全部个体的集合,称为总体。对于所要研究的总体,通过观测或试验而得到的个体集合?1,?2,⋯,??,称为样本。这里

8、的??称为第?个样本,?称为样本大小或样本容量(SampleSize)。通常,我们用表格来记录个体的集合,表格的行数对应个体的数量,每一列对应一个变量。1.3参数和统计量用来描述总体特征的概括性数字度量,称为参数(Parameter)。例如:某工厂生产的一批灯泡,把它们看作一个总体,灯泡的平均使用寿命就是一个重要的参数。但需要测试整批灯泡的寿命,才可以得到这

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。