欢迎来到天天文库
浏览记录
ID:22828438
大小:1020.93 KB
页数:74页
时间:2018-10-31
《重构大数据统计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、ݙᆍㅔҟབྷᮠᦞⲴ㔏䇑䇑㇇ᱟ䘋㹼ᮠᦞ᧒㍒઼࠶᷀᥆ᧈⲴสˈ൘ᇎ䱵ᓄ⭘ѝՊ䙷ࡠєњ䰞仈˖ањᱟ䴰㾱⭘ཊቁ䍴Ⓚ˗ਖањᱟ䇑㇇ᰦ䰤ˈᆳޣ㌫ࡠᮠᦞ᧒㍒࠶᷀Ⲵ᭸⦷઼᭸᷌DŽӪԜ䜭ᐼᵋ㣡ᴤቁⲴ䫡ˈᒦфᐼᵋ䇑㇇ᰦ䰤ᴤ⸝ˈնሩҾḀњ⺞ᇊⲴ䇑㇇䗷〻ˈᆳԜᱟᡀ৽∄ⲴDŽᵜҖ㘵ቡᱟӾ㔏䇑䇑㇇Ⲵ㇇⌅ޕˈ䟽ᶴަ䇑㇇䗷〻ˈӾ㘼਼ᰦ䱽վ䍴Ⓚ⭘䟿઼䇑㇇ᰦ䰤DŽᵜҖᨀࠪҶа྇ᆼᮤⲴޣҾབྷᮠᦞ㔏䇑Ⲵ䇑㇇⨶䇪ˈवᤜᑨ⭘Ⲵ㔏䇑䟿઼㔏䇑ᯩ⌅DŽสҾᵜҖᇩᔰਁⲴᮠᦞ࠶᷀ᐕާᐢ㓿൘䱯䟼ᐤᐤ䳶ഒ䜘Ⲵཊњ䜘䰘⭘ˈᒦਆᗇᱮ㪇᭸᷌DŽਖཆˈᵜҖ䘈ᨀབྷ䟿Ⲵ⽪〻ᒿԓ⸱ᑞ
2、ࣙ䈫㘵䘋а↕Ҷ䀓㇇⌅㓶㢲ˈׯҾሶҖѝⲴᯩ⌅䘀⭘Ҿᇎ䱵䇑㇇DŽᵜҖ䘲ਸሩབྷᮠᦞ࠶᷀ᝏޤ䏓Ⲵ䈫㘵䰵䈫ˈᵜҖࡽ䶒ㄐ㢲∄䖳ᇩ᱃⨶䀓ˈवਜ਼Ҷᑨ⭘㔏䇑䟿Ⲵ䇑㇇˗ਾ䶒Ⲵㄐ㢲䴰㾱䈫㘵ާ༷аӋส⸕䇶DŽᔪ䇞䈫㘵ṩᦞ㠚ᐡⲴޤ䏓઼ᐕ䴰㾱ˈ䘹ᤙᓄⲴᇩ䘋㹼৲㘳DŽᵚ㓿䇨ਟˈнᗇԕԫօᯩᔿ༽ࡦᡆᢴ㻝ᵜҖѻ䜘࠶ᡆޘ䜘ᇩDŽ⡸ᵳᡰᴹˈץᵳᗵウDŽк⠜㓪Ⳃ˄CIP˅᭄䟽ᶴབྷᮠᦞ㔏䇑/ᶘᰝ㪇.üेӜ˖⭥ᆀᐕъࠪ⡸⽮ˈ2014.8˄བྷᮠᦞыҖ.䱯䟼ᐤᐤ䳶ഒᢰᵟыҖ˅ISBN978-7-121-22500-0Ę.₧䟽Ăę.₧ᶘĂċ.₧ᮠᦞ༴⨶ě.
3、₧TP274ѝഭ⡸ᵜമҖ侶CIPᮠᦞṨᆇ(2014)ㅜ030832ਧㆆࡂ㕆䗁˖ࡈⲾ䍓ԫ㕆䗁˖ᵾ࡙ڕঠࡧ˖ेӜѝᯠՏъঠࡧᴹ䲀ޜਨ㻵䇒˖⋣ेⴱй⋣ᐲ䐟䙊㻵䇒লࠪ⡸ਁ㹼˖⭥ᆀᐕъࠪ⡸⽮ेӜᐲ⎧⏰४зሯ䐟173ؑ㇡䛞㕆100036ᔰᵜ˖787×9801/16ঠᕐ˖25.25ᆇᮠ˖502ॳᆇ⡸⅑˖2014ᒤ8ᴸㅜ1⡸ঠ⅑˖2014ᒤ8ᴸㅜ1⅑ঠࡧᇊԧ˖79.00ࠑᡰ䍝Ҡ⭥ᆀᐕъࠪ⡸⽮മҖᴹ㕪ᦏ䰞仈ˈ䈧ੁ䍝ҠҖᓇ䈳ᦒDŽ㤕Җᓇ㕪ˈ䈧оᵜ⽮ਁ㹼䜘㚄㌫ˈ㚄㌫৺䛞䍝⭥䈍˖˄010˅88254888DŽ䍘䟿ᣅ䇹䈧ਁ䛞Ԧ㠣zlts@ph
4、ei.com.cnˈⴇ⡸ץᵳѮᣕ䈧ਁ䛞Ԧ㠣dbqq@phei.com.cnDŽᴽ࣑✝㓯˖˄010˅88258888DŽ第1章基本概念本章将简要介绍一些最基本的概念:数据类型、变量、总体、样本、参数和统计量,并通过具体的例子和说明介绍本书常用的分布式计算思想,为读者深入阅读本书作铺垫。1.1数据类型我们接触到的数据有很多,例如:用户姓名、性别、交易金额、商品单价、用户评分、交易时间等。按照所采用的计量尺度不同,可以分为三类:名义数据、有序数据和数值型数据。1.名义数据名义数据(NominalData)是指对事物分类的结果
5、不区分顺序,但有分类尺度计量形成的数据。各个名义数据间无大小、高低和等级之分,唯一可行的是对发生的频数进行计算。例如,用户姓名和性别都为名义数据。名义数据可以用数字表示,例如,1表示男,0表示女。显然,这里的1并不意味着比0大。2.有序数据有序数据(OrdinalData)是指对事物分类的结果有顺序、有分类尺度计量形成的数据。该类型数据可以进行排序操作,也可以对发生的频数进行计算。例如:用户评分(好、中、差),受教育水平(小学、初中、高中、大学及以上)。有序数据也可用数值表示,例如:对评分用3表示好,2表示中,1表
6、示差;对受教育水平用1表示小学,2表示初中,3表示高中,4表示大学及以上,其中的4意味着比2受教育水平更高。其数值计算结果也没有意义,例如:1+1+1=3不能说明3个差评等于一个好评;2+2=4不能说明受了两次初中教育相当于大学毕业。3.数量数据数量数据(QuantitativeData)是按自然单位、度量衡单位、价值单位对事物进行测量的结果,该结果表现为具体的数值,取值为实数,可以进行所有的计算(求和、平均值等),包括前两种数据类型的排序和计算发生的频数。例如:购买商品的个数、交易金额等。上述三种数据类型的关系如
7、图1-1所示。名义数据(可求频率分布)有序数据(可进行排序操作)数量数据(可进行所有计算)图1-11.2总体和样本说明事物某种特征的概念,称为变量(因素或者元)。例如:灯泡的寿命、购物时间、物品单价、物品个数等。个体是由一个或多个变量(多元或多个因素)构成的。例如:某个灯泡的寿命是1200小时;一条网购记录为“用户名称:张三;购物时间:2013-9-1;物品单价:99.99;物品个数:10”。包含所研究的全部个体的集合,称为总体。对于所要研究的总体,通过观测或试验而得到的个体集合?1,?2,⋯,??,称为样本。这里
8、的??称为第?个样本,?称为样本大小或样本容量(SampleSize)。通常,我们用表格来记录个体的集合,表格的行数对应个体的数量,每一列对应一个变量。1.3参数和统计量用来描述总体特征的概括性数字度量,称为参数(Parameter)。例如:某工厂生产的一批灯泡,把它们看作一个总体,灯泡的平均使用寿命就是一个重要的参数。但需要测试整批灯泡的寿命,才可以得到这
此文档下载收益归作者所有