数据科学概论.ppt

数据科学概论.ppt

ID:55810568

大小:1.36 MB

页数:28页

时间:2020-06-03

数据科学概论.ppt_第1页
数据科学概论.ppt_第2页
数据科学概论.ppt_第3页
数据科学概论.ppt_第4页
数据科学概论.ppt_第5页
资源描述:

《数据科学概论.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据科学概论肖波中央民族大学数据科学和数据科学家数据科学定义数据科学家定义数据科学团队学术数据科学家企业数据科学家近年对数据科学的炒作---除了上帝谁都要用数据说话!---只管把数据拿来,数据自己会说话!近年我们在各种场合听到各种关于大数据和数据科学家的议论。听起来仿佛谁不搞大数据和数据科学就要落后,企业就要走向末路。这就迫使我们一定要看个究竟。如果是这样那么怎么认识大数据,又如何成为大数据的行家里手呢?先来看看我们面临的问题。数据科学直面的问题缺乏最基本术语定义。什么是大数据?什么是数据科学?大数据和数据科学的关系是什么?数据科学是关于大数

2、据的科学吗?数据科学仅适用于Google和Facebook这样的大技术公司吗?为什么有人认为大数据只是个交叉学科(空间,财务,技术等)而数据科学只是个技术问题?到底数据多大才算大?抑或它只是个相对的术语?1.当代社会数据无处不在我们掌握大量生活方方面面的数据,但是缺乏计算处理的经验。购物,交流,读报,听音乐,搜信息,表达意见。如人所知,所有这些都被在线跟踪。人们也许不知道“数据化”已经通过技术采集并利用在线数据来观察我们的离线行为。二者结合起来可以像研究新物种一样研究我们。不仅仅是因特网数据,还有金融,医药工业,药品,生物信息,社会福利,政府

3、信息,教育,退休及其他可以想到的数据。对大部分部门和工业数据影响力不断增长。在某种情况下,这种数据足可以称之为“大”2.“数据化”他们定义数据化为“将所有对生活有影响的因素转化为数据”。他们提到的例子有:谷歌增强现实眼镜数据化凝视,推特数据化变化的思想。数据化是一个有趣的概念,我们来想象一下它对于人们共享数据所产生的影响。我们正在被数据化,抑或说我们的行为被数据化。当我们在线“喜欢”什么人或事的时候,我们就被数据化了,至少有可能被数据化了。如果我们甚少上网也可能被通过cookies在不知情的情况下被动地数据化了。当我们走过一个商店甚至走在街上

4、都可能被传感器,摄像头,谷歌眼镜等无意识地数据化。这些拍摄的图像从我们兴高采烈地参加社会媒体活动到各种户外调查和谈话,都是在数据化。我们的倾向可能被大肆渲染,而结果并非如此。3.数据化使谁获益?一旦我们数据化了事物,我们就可以转换它们的用途并把信息变为新的数值形式。这里有一个问题要关注:谁是上面论述中的“我们”?他们使用什么类型的数据?大部分情况下的“我们”是模型作者和驱使人们去花钱买东西的企业。而“数据”通过自动化被转换成增加的效益。4.为什么会出现数据科学不仅仅因为这些数据大而有趣(或更具挑战),而是数据本身往往是实时的,成为一个数据产品

5、的原材料。在因特网它意味着亚马孙推送系统,Facebook的朋友推荐,电影和音乐推送等等。在财务方面意味着信用评级,交易算法和模型等。在教育方面意味着动态个性化学习和像Knewton,Khan学院一样的教学评估。对政府而言意味着基于数据的决策。5.什么是数据科学?什么是数据科学?它到底是新生事物还是统计学或数据分析的改头换面?它是真的存在有还是炒作?若它是真实的和新生的那它的涵义是什么?数据科学广义的定义研究探索Cyberspace中数据界(datanature)奥秘的理论、方法和技术,研究的对象是数据界中的数据。数据科学的研究对象是Cybe

6、rspace的数据,是新的科学。数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。与其他学科的关系数据科学的体系结构数据科学的狭义定义:数据科学是研究数据的科学。它利用统计学知识和计算机技术对专业领域的对象进行现实大数据分析与挖掘及其它方式的数据处理,以使组织获取更大的经济效益。数据科学概念图6.数据科学的三要素专业领域知识数学统计学知识1.线性代数2.概率统计计算机软件知识可视化推

7、送系统数据处理黑客技巧程序设计7.数据科学家数据科学家是计算机科学,统计学,沟通技巧,数据可视化方面的专家,并且具有领域专业知识。没有哪个人是所有学科的专家。所以有必要组织具有不同背景和专业的人形成一个团队。作为一个团队,他们可以面对任何特殊问题。我们看了现在对数据科学家技能的要求后更加需要强调团队的重要性。数据科学家(DataScientist)只是一个职位。类似于工程师、会计师。8.数据科学家的知识背景。计算机科学。数学。统计学。机器学习。专业领域。沟通和表达技巧。数据可视化数据科学家背景知识分布图可视化机器学习数学统计学计算机科学沟通技

8、巧专业领域9.数据科学团队我们前面提到,数据科学团队最好由不同知识背景的人组成,因为没有人会是万能的。所以我们认为更有价值的办法是组建一个类似后图的“数据科学团队”

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。