资源描述:
《大数据分析分享部分》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、电子商务新进展—大数据分析liuyezheng@hfut.edu.cn0551-62904991刘业政2021年10月5日一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析提纲一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析2021年10月5日一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析提纲一、大数据时代二、大数据分析基础三、相似项发现四、流数据分析2021年10月5日准备知识向量空间模型(VectorSpaceModel):模型根据文本中的词汇出现在整个文本集中的频次为每个词汇计算出一个权重,形
2、成关于该文本的<词汇,权重>向量空间。假定文档集中有N篇文档,词项i出现在ni个文档中且在文档j中出现的次数为fij,文档j包含的词数为fj,则:TF(TermFrequency):TFij=fij/fjIDF(InverseDocumentFrequency):IDFi=log2N/ni则词项i在页面j上的权重wij计算如下:wij=TFij×IDFi(TF×IDF模型:有多种计算策略)i1i2...ik0.120.50...0.072021年10月5日准备知识哈希函数h:将哈希键值(整数)随机化。输入:哈希键值(hash-key)
3、输出:桶编号(bucketnumber)不同类型的数据都可以转化成比特位序列,从而都可以解释为整数。用哈希函数构建索引输入:用于建立索引的一个或多个字段输出:桶编号,每条记录映射到一个桶,具有相同输入的不同字段,可以映射到同一个桶。其他相关知识:磁盘存储、幂律分布2021年10月5日基于Map-Reduce的基本运算矩阵-向量乘积假定矩阵M=[mij]n×n,向量V=[vj]n,n足够大,但V可以一次读入内存Map函数:每个Map任务将整个向量V和矩阵M的一个文件块作为输入。对每个矩阵元素mij,Map任务会产生键值对(i,mijvj
4、)。例如,(i,mi1v1),…,(i,minvn)Reduce函数:Reduce任务将所有与给定键i关联的值相加即可得到。2021年10月5日基于Map-Reduce的基本运算矩阵-向量乘积假定矩阵M=[mij]n×n,向量V=[vj]n,n足够大且V无法一次读入内存处理思路:将M分割成k个宽度相等的垂直条,对应的将V分成k个高度相等的水平条。分割后的每个水平条都能够放入内存。将每个垂直条、水平条都存成一个文件这样就转换成向量可读入内存的矩阵-向量乘积。2021年10月5日基于Map-Reduce的基本运算关系选择对关系R的每个元组
5、应用条件C,得到仅满足条件C的元组,记为C(R)。(select*whereCfromR)Map函数:对R中的每个元组t,检测它是否满足C。如果满足,则产生一个键值对(t,t)。键和值都是t。Reduce函数:类似于恒等运算,将每个键值对传递到输出部分即可。2021年10月5日基于Map-Reduce的基本运算关系投影对关系R的某个属性子集S,从每个元组中得到仅包含S中属性的元素。记为S(R)。(selectSfromR)Map函数:对R中的每个元组t,剔除t中属性不在S中的字段得到元组t’,输出键值对(t’,t’)。将可能存在t
6、’相同的多个键值对转换成键值表对,即(t’,[t’,t’,…,t’])Reduce函数:将(t’,[t’,t’,…,t’])转换成(t’,t’)输出,以保证对任意键t’仅产生一个键值对(t’,t’)。2021年10月5日基于Map-Reduce的基本运算分组与聚合设关系为R(A,B,C),分组:按照属性子集A对元组进行分割,A的所有属性值相同的元组分为一组。聚合:对每个组中所有元组的B属性值进行运算,运算包括sum,count,avg,min,max。A,(B)(R),A、B由用户指定。Map函数:对R中的每个元组(a,b,c
7、),生成键值对(a,b)Reduce函数:对于相同的键a,输入到对应的Reduce任务的键值表对为(a,[b1,...,bn]),对值表[b1,...,bn]进行操作,得到结果x。则键a对应的输出为:(a,x)2021年10月5日基于Map-Reduce的基本运算两个关系的并对两个属性集相同的关系R、S中的所有元组进行“并”操作。Union(R,S)Map函数:将每个输入元组t转变为键值对(t,t)。输入文件可能来自关系R的文件块,也可能来自关系S的文件块。Reduce函数:和每个键关联的可能有一个值或两个值,两种情况下都输出(t,
8、t)。2021年10月5日基于Map-Reduce的基本运算两个关系的交对两个属性集相同的关系R、S中的所有元组进行“交”操作。Intersection(R,S)Map函数:将每个输入元组t转变为键值对(t,t)。Red