欢迎来到天天文库
浏览记录
ID:22012445
大小:4.70 MB
页数:97页
时间:2018-10-22
《医学数据挖掘与大数据处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七章医学数据挖掘与大数据处理本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用阅读书目崔雷.医学数据挖掘.高等教育出版社涂子佩.大数据.广西师范大学出版社赵刚.大数据技术与应用实践指南.电子工业出版社李雄飞等.数据挖掘与知识发现(第2版).高等教育出版社1.数据挖掘与数据仓库数据、信息、知识?数据信息知识“1.85”是个数字奥巴马身高1.85大多数黑人男性的升高超过1.85数据、信息和知识的区别与联系知识数据数据价值数据规模信息纽约警察-杰克.梅普尔的传奇数据驱动管理除了上帝,任何人都要用数据说话。-爱德华.戴明图灵奖、诺经济学奖、美心理学会终身成就奖人
2、类理性是有限的,所有决策都是基于有限理性的结果,如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将扩大,决策的质量就能提高。决策支持—商务智能2021/8/138数据挖掘的发展动力---需要是发明之母数据爆炸但知识贫乏全球每秒290万份电子邮件、每秒亚马逊产生72.9笔订单,每分钟20个小时视屏上传到YouTube,Google每天处理24PB数据;淘宝有6亿注册会员,在线商品超过9亿,每天交易超过数千亿。自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。这些数据当中大量有用的知识被淹没其中。2021/8/139解决方法-数据仓库和
3、数据挖掘数据仓库(DataWarehouse)和在线分析处理(OLAP)在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)支持数据挖掘技术的基础--海量数据搜集--强大的多处理器计算机--数据挖掘算法数据仓库数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理中的决策支持。数据仓库体系结构数据仓库体系结构数据源:通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。数据的存储与管理:决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析
4、。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。数据仓库体系结构OLAP(OnLineAnalysisProcessing)对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。ROLAP(关系型在线分析处理),基本数据和聚合数据均存放在RDBMS之中;MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理),基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。数据仓库体系结构前端
5、工具各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。数据分析工具主要针对OLAP服务器报表工具、数据挖掘工具主要针对数据仓库。数据仓库四大特点数据仓库是面向主题的。数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库是集成的。数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,转换统一与综合之后才能进入数据仓库;数据仓库特点数据仓库是随时间而变化的。不断跟踪事务处理系统中,数据仓库会
6、把业务系统数据库中变化数据追加进去。传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。数据仓库是稳定的(非易失性的)。其数据以物理分离的方式存储,决策人员只进行数据查询,而不进行数据修改。数据仓库只需要两类操作:数据的初始化装入和数据访问多维数据模型数据立方体以两维或多维来描述或分类数据,维类似关系数据库的属性或字段。三维立方体呈现。维:是人们观察事物、计算数据的特定角度。例如,死因监测,“地区”、“时间”、“性别”、“死亡原因”等构成四维数据模型。事实:多维立方体是面向主题的,主题有事实来表示。例如主题死因分析,则死亡
7、人数就是事实。数据立方体结构下钻:一个维度可以下钻细分上卷:汇总2021/8/1321数据挖掘:数据中搜索知识(模式)知识2021/8/13重庆医科大学现教中心 王体春22进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)
此文档下载收益归作者所有