欢迎来到天天文库
浏览记录
ID:39474433
大小:485.50 KB
页数:5页
时间:2019-07-04
《基于云计算的大数据挖掘讲座笔记》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、学术讲座笔记题目:基于云计算的大数据挖掘院(系):信息与通信学院专业:通信工程学生姓名:学号:主讲人:史忠植职称:研究员2012年10月11日桂林电子科技大学课程设计(论文)报告用纸第4页共4页随着信息技术的发展,云计算和大数据成为信息科技最新的亮点,云计算提供数据处理和信息共享的平台,而大数据考虑分析算法和系统的效率。互联网使得信息成为数据库,搜索引擎从海量语料库中发现知识。随着互联网、物联网、电视网、电信网、数字家庭等广泛应用与普及,以及生命科学、天文、地理等领域的发展,数据量将达到Terabyt
2、e、Petabyte、甚至Exabyte级。如何快速、准确、实时、方便地从如此庞大的、分散的大数据中获取所需要的知识,是当前面临的重要问题,是科学技术及产业领域研究的前沿课题之一。 1数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集
3、成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型1.1第一代数据挖掘软件特点:⑴支持一个或少数几个数据挖掘算法;⑵挖掘向量数据(vector-valueddata);⑶数据一般一次性调进内存进行处理;⑷典型的系统如SalfordSystems公司早期的CART系统。缺陷:如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进
4、行管理,第一代系统显然不能满足需求。桂林电子科技大学课程设计(论文)报告用纸第4页共4页新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。1.2第二代数据挖掘软件特点:⑴与数据库管理系统(DBMS)集成;⑵支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性;⑶能够挖掘大数据集、以及更复杂的数据集;⑷通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性;⑸典型的系统如DBMiner,能通过DMQL
5、挖掘语言进行挖掘操作。缺陷:只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发。1.3第三代数据挖掘软件特点:⑴和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中;⑵由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能;⑶能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成。缺陷:不能支持移动环境。第三代软件SPSSlem
6、entine以PMML的格式提供与预言模型系统的接口。1.4第四代数据挖掘软件特点:⑴目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域;⑵第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据。2云计算的特点云计算具有以下特点:(1)服务器规模巨大。“云”具有相当的规模,Google云计算已经拥有上百万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有50多万台服务器。“云”桂林电子科技大学课程设计(论文)报告用纸第
7、4页共4页能赋予用户超强的计算能力。(2)资源虚拟化。云计算支持用户在不同地理位置、使用各种终端获取服务。所请求的资源,是动态且无形的。应用在“云”中某处运行,但实际上用户不必关系它的具体位置。(3)可靠性较高。为了使用云计算更可靠,“云”采用了数据多副本容错等措施来保障其高可靠性的服务。(4)较强的通用性。由于在““云”的支撑下可以构造出于变万化的应用,所以,云计算针对的是变化的应用,而对于不同的应用运行可以由同一个“云”支撑。(5)可扩展性。尽管应用和用户规模在不断的增长。“云”的规模也可以通过动
8、态伸缩而满足的这些需要。(6)按需服务。云可以象自来水,电,煤气那样计费,因此,用户可以按自已的需要进行购买。(7)价格低廉。因为“云”可以由极其廉价的节点来构成,所以“云”无需负担越来越高的数据中心管理成本。用户在享受“云”的低成本优势的同时。传统系统的资源利用率也因为“云”得到了提高。3基于云计算的数据挖掘的优势用云计算的方式来处理海量数据进行挖掘的优势有以下三个方面:(1)由于数据挖掘处理的数据足海量的,要从海量的数据中挖掘出理解的知识,大规模的数
此文档下载收益归作者所有