数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt

数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt

ID:55649141

大小:232.50 KB

页数:51页

时间:2020-05-22

数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt_第1页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt_第2页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt_第3页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt_第4页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt_第5页
资源描述:

《数据挖掘技术-第2章 数据挖掘的功能、过程与方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、第2章数据挖掘的功能、过程与方法杨建林主要内容数据挖掘的功能数据挖掘过程数据挖掘方法数据挖掘的功能数据挖掘是指从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式数据挖掘的功能概念描述关联分析分类与聚类偏差检测时序演变分析信息摘要信息抽取元数据挖掘……概念描述概念描述(conceptdescription)就是通过对与某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述,并概括这类对象的有关特征。这种描述是汇总的、简洁的和精确的知

2、识。概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征后者描述不同类对象之间的区别概念描述概念描述教授的特征刻画教授男45岁以上理科180教授女45岁以上理科30教授男35岁以下理科16教授女35岁以下理科12教授女45岁以上文科25教授男35岁以下文科3教授女35岁以下文科0。。。概念描述教授的特征刻画南京大学大部分教授是男性且年龄大于45;少部分教授年龄小于等于35,这部分教师主要属于理科院系表1商品销售情况表(明细)产品数量单价销售地点销售日期HP打印机81200合肥2002-01-11联想计算机106500合肥200

3、2-01-12IBM计算机127500南京2002-01-12EPSON打印机102500滁州2002-01-12HP打印机71500上海2002-01-12IBM计算机106500扬州2002-01-12SONY计算机86500滁州2002-01-12CANON打印机301500扬州2002-01-13……………图1计算机销售额饼状图江苏:53%上海:35%安徽:12%关联分析关联若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析(associationanalysis)关联分析就是从大量的数据中发现项集之间有趣的关联或因

4、果结构。关联分析关联分析的应用:尿布和啤酒美国加州某个超级连锁店通过数据挖掘,从记录着每天销售和顾客基本情况的数据库中发现:在下班后前来购买婴儿尿布的顾客多数是男性他们往往也同时购买啤酒措施结果关联分析关联规则反映了物品之间的表面联系,不一定是现实世界的因果关系。规则是死的,人是活的关联分析关联分析的应用:设某超市销售系统记录了如下顾客的购物单。如表1:流水号所购物品清单1啤酒、薄饼、牛奶2烤鸭、薄饼、面酱3啤酒、烤鸭、薄饼、面酱4面酱5烤鸭、面酱关联分析经过分析,得出下列三条规则(其中s是支持度,c是置信度)∶R1:烤鸭面饼、面酱。

5、s=40%,c=2/3=66.6%R2:面饼烤鸭、面酱。s=40%,c=2/3=66.6%R3:面酱面饼、烤鸭。s=40%,c为2/4=50%关联分析用R1,烤鸭降价以促销面饼面酱,可能会破产用R2面饼降价,以促销烤鸭,可能会赢利;用R3,引不起顾客的热情。分类与聚类分类与聚类的差异分类:类别已知(决策树分类等)聚类:类别未知(关联分析、层次聚类等)举例:购买高清数字电视人群的分类分类规则预测偏差检测数据库中的数据常有一些异常记录,它们与其它数据的一般行为或模型不一致。这些数据记录就是偏差(deviation),也叫孤立点。例:信用

6、卡消费开户时存入1000元,短期透支消费10000元以上可能是恶意透支,属于一种欺诈行为偏差的产生可能是某种数据错误造成的,也可能是数据变异所固有的结果。偏差检测偏差检测(deviationdetection)就是对数据库中的偏差数据进行检测和分析。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。时序演变分析数据的时序演变分析是分析事件或对象行为随时间变化的规律或趋势。例,对股票市场交易数据进行时序演变分析,则可能得到这样的规则:若AT&T股票连续上涨两天且DEC股票不下跌,那么第三天IBM股票上涨的可能性为75%若AT&T

7、股票上涨且DEC股票不下跌,那么IBM股票上涨(可能性为75%)信息摘要信息摘要(InformationSummarization)是一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇短文的过程。文摘是以简洁的篇幅,忠实地反映原文内容的一段简短文字。信息抽取信息抽取(informationextraction)就是根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体或关系的类型。信息抽取例如,针对计算机病毒类的文章可以提出如下的框架:病毒{病毒名称:病毒传染对象病毒类

8、属:病毒攻击对象:…}元数据挖掘元数据挖掘(metadatamining)是指对元数据进行的挖掘。例如,对文本元数据的挖掘。文本元数据可以分为两类:一类是描述性元数据,包括文本的名称、日期、大小、类型等信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。