大数据分析分享部分

大数据分析分享部分

ID:26771583

大小:1.89 MB

页数:83页

时间:2018-11-28

大数据分析分享部分_第1页
大数据分析分享部分_第2页
大数据分析分享部分_第3页
大数据分析分享部分_第4页
大数据分析分享部分_第5页
资源描述:

《大数据分析分享部分》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、电子商务新进展—大数据分析liuyezheng@hfut.edu.cn0551-62904991刘业政2021年10月5日一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析提纲一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析2021年10月5日一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析提纲一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析2021年10月5日准备知识向量空间模型(VectorSpaceModel):模型根据文本中的词汇出现在整个文本集中的频次为每个词汇计算出一个权重,形

2、成关于该文本的<词汇,权重>向量空间。假定文档集中有N篇文档,词项i出现在ni个文档中且在文档j中出现的次数为fij,文档j包含的词数为fj,则:TF(TermFrequency):TFij=fij/fjIDF(InverseDocumentFrequency):IDFi=log2N/ni则词项i在页面j上的权重wij计算如下:wij=TFij×IDFi(TF×IDF模型:有多种计算策略)i1i2...ik0.120.50...0.072021年10月5日准备知识哈希函数h:将哈希键值(整数)随机化。输入:哈希键值(hash-key)

3、输出:桶编号(bucketnumber)不同类型的数据都可以转化成比特位序列,从而都可以解释为整数。用哈希函数构建索引输入:用于建立索引的一个或多个字段输出:桶编号,每条记录映射到一个桶,具有相同输入的不同字段,可以映射到同一个桶。其他相关知识:磁盘存储、幂律分布2021年10月5日基于Map-Reduce的基本运算矩阵-向量乘积假定矩阵M=[mij]n×n,向量V=[vj]n,n足够大,但V可以一次读入内存Map函数:每个Map任务将整个向量V和矩阵M的一个文件块作为输入。对每个矩阵元素mij,Map任务会产生键值对(i,mijvj

4、)。例如,(i,mi1v1),…,(i,minvn)Reduce函数:Reduce任务将所有与给定键i关联的值相加即可得到。2021年10月5日基于Map-Reduce的基本运算矩阵-向量乘积假定矩阵M=[mij]n×n,向量V=[vj]n,n足够大且V无法一次读入内存处理思路:将M分割成k个宽度相等的垂直条,对应的将V分成k个高度相等的水平条。分割后的每个水平条都能够放入内存。将每个垂直条、水平条都存成一个文件这样就转换成向量可读入内存的矩阵-向量乘积。2021年10月5日基于Map-Reduce的基本运算关系选择对关系R的每个元组

5、应用条件C,得到仅满足条件C的元组,记为C(R)。(select*whereCfromR)Map函数:对R中的每个元组t,检测它是否满足C。如果满足,则产生一个键值对(t,t)。键和值都是t。Reduce函数:类似于恒等运算,将每个键值对传递到输出部分即可。2021年10月5日基于Map-Reduce的基本运算关系投影对关系R的某个属性子集S,从每个元组中得到仅包含S中属性的元素。记为S(R)。(selectSfromR)Map函数:对R中的每个元组t,剔除t中属性不在S中的字段得到元组t’,输出键值对(t’,t’)。将可能存在t

6、’相同的多个键值对转换成键值表对,即(t’,[t’,t’,…,t’])Reduce函数:将(t’,[t’,t’,…,t’])转换成(t’,t’)输出,以保证对任意键t’仅产生一个键值对(t’,t’)。2021年10月5日基于Map-Reduce的基本运算分组与聚合设关系为R(A,B,C),分组:按照属性子集A对元组进行分割,A的所有属性值相同的元组分为一组。聚合:对每个组中所有元组的B属性值进行运算,运算包括sum,count,avg,min,max。A,(B)(R),A、B由用户指定。Map函数:对R中的每个元组(a,b,c

7、),生成键值对(a,b)Reduce函数:对于相同的键a,输入到对应的Reduce任务的键值表对为(a,[b1,...,bn]),对值表[b1,...,bn]进行操作,得到结果x。则键a对应的输出为:(a,x)2021年10月5日基于Map-Reduce的基本运算两个关系的并对两个属性集相同的关系R、S中的所有元组进行“并”操作。Union(R,S)Map函数:将每个输入元组t转变为键值对(t,t)。输入文件可能来自关系R的文件块,也可能来自关系S的文件块。Reduce函数:和每个键关联的可能有一个值或两个值,两种情况下都输出(t,

8、t)。2021年10月5日基于Map-Reduce的基本运算两个关系的交对两个属性集相同的关系R、S中的所有元组进行“交”操作。Intersection(R,S)Map函数:将每个输入元组t转变为键值对(t,t)。Red

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。