欢迎来到天天文库
浏览记录
ID:36434754
大小:239.00 KB
页数:16页
时间:2019-05-09
《数据挖掘的初步了解》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘的初步了解刘超1.数据挖掘产生的历史背景数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息解决方案:数据仓库技术和数据挖掘技术数据挖掘的概念定义数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)(着重强调有效的和可伸缩的数据挖掘技术)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼、数据/模式分析数据考古数据捕捞
2、、信息收获等等。数据挖掘:数据库中的知识挖掘(KnowledgeDiscoveryinDatabases)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估KDD的步骤从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:(这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成
3、并非所有的东西都是数据挖掘一般能进行查询处理的数据库系统和专家系统或是小型的数学计算统计程序并不能算是数据挖掘基于数据仓库的OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合数据挖掘所进行的数据对象关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和历史(legacy)数据库文本数据库和万维网(WWW数据挖掘应用市场分析和管理公司分析和风险管理欺诈行为检测和异常
4、模式数据挖掘的主要功能——可以挖掘哪些模式?一般功能描述性的数据挖掘预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:概念/类描述:特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析模式兴趣度相关度量标准数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的
5、某种假设模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘的主要问题(1)数据挖掘是多个学科融合,但本课程所关注的是:海量数据的挖掘的效率和可扩展性或可伸缩性本课程中所要涵盖的主要数据挖掘问题包括:挖掘方法问题和用户交互问题在数据库中挖掘不同类型的知识在不同抽象层上的交互式知识挖掘背景知识的合并数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示
6、和可视化处理噪声何不完全数据模式评估:兴趣度问题数据挖掘的主要问题(2)性能问题数据挖掘算法的效率和可扩展性(scalability)给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据的规模近似线性的增加。并行,分布式和增量挖掘算法(数据的分块挖掘)其他和多样化的数据库类型相关的问题关系型和复杂数据类型的处理为特定的数据类型构建特定的数据挖掘系统从异构数据库中挖掘WEB数据挖掘服务理念中的“点点”◆理解多一点真情浓一点◆学习勤一点品质高一点◆理由少一点效率高一点◆处理问题灵活点工作过程用心点◆对待同事宽容点互相协作快乐点放映结束!敬
7、请各位的批评指导!谢谢观看
此文档下载收益归作者所有