大数据:互联网大规模数据挖掘与分布式处理.pdf

大数据:互联网大规模数据挖掘与分布式处理.pdf

ID:51042813

大小:818.42 KB

页数:14页

时间:2020-03-08

大数据:互联网大规模数据挖掘与分布式处理.pdf_第1页
大数据:互联网大规模数据挖掘与分布式处理.pdf_第2页
大数据:互联网大规模数据挖掘与分布式处理.pdf_第3页
大数据:互联网大规模数据挖掘与分布式处理.pdf_第4页
大数据:互联网大规模数据挖掘与分布式处理.pdf_第5页
资源描述:

《大数据:互联网大规模数据挖掘与分布式处理.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1.1数据挖掘的定义11第1章数据挖掘基本概念12本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。3接着介绍邦弗朗尼原理(Bonferroni’sprinciple),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的4性质、包含自然对数底e的恒等式等。最后,简要介绍了后续章节所要涉及的主题。1.1数据挖掘的定义最广

2、为接受的定义是,数据挖掘(datamining)是数据“模型”的发现过程。而“模型”却5可以有多种含义。下面介绍在建模方面最重要的几个方向。1.1.1统计建模6最早使用“datamining”术语的人是统计学家。术语“datamining”或者“datadredging”最初是贬义词,意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然,现在术语“datamining”的意义已经是正面的了。目前,统计学家认为数据挖掘就是统计模型(statisticalmodel)的构建过

3、程,而这个统计模型指的就是可见数据所遵从7的总体分布。例1.1假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单,但这只是为了说明问题而采用的例子。统计学家可能会判定这些数字来自一个高斯分布(即正态分布),并利用公式来计算该分布最有可能的参数值。该高斯分布的均值和标准差能够完整地刻8画整个分布,因而成为上述数据的一个模型。1.1.2机器学习9有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当使用了机2第1章数据挖掘基本概念器学习算法。机器学习的实践者将数据当成训练集来

4、训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。某些场景下上述的数据利用方式是合理的。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。比如,我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。因此,在Netflix竞赛要求设计一个算法来预测观众对影片的评分时,基于已有评分样本的机器学习算法获得了巨大成功。在9.4节中,我们将讨论此类算法的一个简单形式。另一方面,当挖掘的目标能够更直接地描述时,机器学习方法并不成功。一个有趣的例子①是,WhizBang!实验室曾试图使用

5、机器学习方法在Web上定位人们的简历。但是不管使用什么机器学习算法,最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。由于看过或者写过简历的人都对简历包含哪些内容非常清楚,Web页面是否包含简历毫无秘密可言。因此,使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。1.1.3建模的计算方法近年来,计算机科学家已将数据挖掘看成一个算法问题。这种情况下,数据模型仅仅就是复杂查询的答案。例如,给定例1.1中的一系列数字,我们可以计算它们的均值和标准差。需要注意的是,这样计算出的参数可能并

6、不是这组数据的最佳高斯分布拟合参数,尽管在数据集规模很大时两者非常接近。数据建模有很多不同的方法。前面我们已经提到,数据可以通过其生成所可能遵从的统计过程构建来建模。而其他的大部分数据建模方法可以描述为下列两种做法之一:(1)对数据进行简洁的近似汇总描述;(2)从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。在接下来的内容中,我们将探究上述两种做法。1.1.4数据汇总一种最有趣的数据汇总形式是PageRank,它也是使谷歌成功的关键算法之一,我们将在第5章对它进行详细介绍。在这种形式的Web挖掘当中,We

7、b的整个复杂结构可由每个页面所对应的一个数字归纳而成。这种数字就是网页的PageRank值,即一个Web结构上的随机游走者在任意给定时刻处于该页的概率(这是极其简化的一种说法)。PageRank的一个非常好的特性就是它能够——————————①该初创实验室试图使用机器学习方法来进行大规模数据挖掘,并且雇用了大批机器学习高手来实现这一点。遗憾的是,该实验室并没有能够生存下来。1.1数据挖掘的定义3很好地反映网页的重要性,即典型用户在搜索时期望返回某个页面的程度。1另一种重要的数据汇总形式是聚类,第7章将予以介绍。

8、在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。2例1.2一个利用聚类来解决问题的著名实例发生在很久以前的伦敦,在整个问题的解决中①并没有使用计算机。内科医生JohnSnow在处理霍乱爆发时在城市地图上标出了病例的发生

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。