欢迎来到天天文库
浏览记录
ID:26684823
大小:882.35 KB
页数:57页
时间:2018-11-28
《大数据的处理和分析计算机科学导论十讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大数据的处理和分析计算机科学导论第十讲计算机科学技术学院陈意云0551-63607043,yiyun@ustc.edu.cnhttp://staff.ustc.edu.cn/~yiyun/课程内容课程内容围绕学科理论体系中的模型理论,程序理论和计算理论1.模型理论关心的问题给定模型M,哪些问题可以由模型M解决;如何比较模型的表达能力2.程序理论关心的问题给定模型M,如何用模型M解决问题包括程序设计范型、程序设计语言、程序设计、形式语义、类型论、程序验证、程序分析等3.计算理论关心的问题给定模型M和一类问题,解决该类问题需多少资源2本次讲座与这些内容关系不大讲座提纲大数
2、据的魅力数据挖掘、大数据、大数据案例、大数据的特点大数据时代的思维变革样本和全体、精确性和混杂性、因果关系和相关关系大数据的处理几种主要处理方式、MapReduce编程模型大数据的分析关键技术概述、PageRank初步3数据挖掘数据挖掘的定义1.从数据中提取出隐含的、过去未知的、有价值的潜在信息2.从大量数据或者数据库中提取有用信息的科学相关概念:知识发现1.数据挖掘是知识发现过程中的一步2.粗略看:数据预处理数据挖掘数据后处理预处理:将未加工输入数据转换为适合处理的形式后处理:如可视化,便于从不同视角探查挖掘结果大数据的魅力4数据挖掘典型事例:购物篮分析顾客一次
3、购买商品1面包、黄油、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、牛奶7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶大数据的魅力5数据挖掘典型事例:购物篮分析顾客一次购买商品1面包、黄油、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、牛奶7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶经关联分析,可发现顾客经常同
4、时购买的商品:尿布牛奶大数据的魅力6大数据大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息例如:Google每天有来自全球30亿条搜索指令每天都有成千上万的人通过Google搜索信息,从出游的路线和耗时、治疗某种疾病的方法和某研究方向的最新学术资料,各式各样的搜索要求都有这样的搜索引擎无疑极大地方便了人们的生活和工作大数据的魅力7大数据大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息这一系列搜索数据从侧面显示出搜
5、索这些信息的人的本身情况,比如他们的想法、需求、忧虑等非常有价值的信息如果这些搜索数据能准确地反映人们的生活和工作状况,那么就有可能利用这些信息来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况和预测选举结果等大数据的魅力8大数据大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息与小数据集的比较:在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行大数据分析可得出许多额外的信息和数据关联性这正是大型数据集盛行的原因数据挖掘则是探讨用以解析大数据的方法大数据的魅
6、力9大数据案例—谷歌预测冬季流感的传播2008年11月谷歌公司启动“谷歌流感趋势”(GoogleFluTrends,GFT)项目GFT项目把5000万个美国人最频繁检索的词项与美国疾病预防控制中心告知的2003年~2008年季节性流感传播期间的数据进行比较,以确定相关检索词项为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型大数据的魅力10大数据案例—谷歌预测冬季流感的传播为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型在把得出的预测与2007年和2008年疾病预
7、防控制中心记录的实际流感病例进行对比后,GFT的软件发现了45个检索词项的组合把这些检索词项用于一个特定的数学模型后,其预测与官方数据相关性高达97%大数据的魅力11大数据案例—谷歌预测冬季流感的传播2009年谷歌把研究成果发表在《自然》杂志上,这篇引人注目的论文令公共卫生官员和计算机科学家感到震惊文章不仅预测了流感在全美的传播,而且具体到特定的地区和州并且预测非常及时,不像疾病预防控制中心的信息会有一两周的延迟(因为人们从患病到求医会滞后,信息从医院传到疾控中心也需要时间,疾控中心每周只进行一次数据汇总)信息滞后两周对一种飞速传播的疾病是致命的大数
此文档下载收益归作者所有