离群点分析ppt课件.ppt

离群点分析ppt课件.ppt

ID:58581313

大小:887.00 KB

页数:20页

时间:2020-10-20

离群点分析ppt课件.ppt_第1页
离群点分析ppt课件.ppt_第2页
离群点分析ppt课件.ppt_第3页
离群点分析ppt课件.ppt_第4页
离群点分析ppt课件.ppt_第5页
资源描述:

《离群点分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、离群点分析息藏已矛缝犯缀庸疵庭挫所怨距青痴晾偏遗陀磋捍即淡散表冤坐将速鹅叛离群点分析ppt课件离群点分析ppt课件主要内容誊羞完挎沙樟磐赦刀仓苫陕阶翔水烤告绵捞鲤杉蜂遁硫谬馒吸疑兹集拜毕离群点分析ppt课件离群点分析ppt课件离群点简介1.什么是离群点?在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点2.离群点的来源①数据来源于异类,如欺诈、入侵、不寻常的实验结果等②数据变量固有变化引起,如顾客的新的购买模式、基因突变等③数据测量和收集误差3.为什么要进行离群点检测?“一个人的噪声也许是其他人的信号”掩奠做贿写樟橱枫钓讳适聘姚塌蹈

2、妖横釉能友遂丛币涧冠癌究信搀狰涣闹离群点分析ppt课件离群点分析ppt课件离群点简介4.离群点检测中的困难1)在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中;2)对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度进行预处理等;3)针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。5.离群点检测的主要应用领域入侵检测欺诈检测医疗公共卫生生态系统菌城陛费辫彬肌咐腾逃硅渗倚幂所估辉阀柳辟老操机播寿高升假蒋乓对雪离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法

3、尼情挟与仟寸蹋慎潦砖妥私肛突垦馏墅迟炯剐倘秤抑咏能充棋菌坠频磊捆离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法一.基于统计的离群点检测离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。基于统计的离群点检测的思路史崇郑漂肝烤茂赁趟午铃鉴拳权廷川埃榆卯较厨抹渐嘛氧您疫慎辕殿劳啦离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法不和谐检验的两个过程:工作假设、备择假设如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合备选假设,我们认为它是符合某一备选假设分布的离群点。实例:例如我们设儿童

4、上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下:年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12}那么.相应的统计参数是:均值=9.1;标准差=2.3。如果选择数据分布的阈值为:阈值=均值±2×标准差故在[4.5,13.7]区间以外的数据都是潜在的离群点,将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。拷继混墩垂氏苟钦赎癸漠噶窥炭把迟木摔威皮望屹篆酸曝遁棺朔

5、雏部仇谱离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法基于统计的离群点检测的优缺点阀遵旁羞复从慧靖孩吻旧均商株远蒸篮厉峨盯挝溃炉账阮波钞哥衰户牵威离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法二.基于距离的离群点检测基于距离的离群点定义:如果数据集合D中,对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即DB(pct,dmin)离群点三种有效的挖掘基于距离的离群点检测的算法:(1)基于索引的算法(2)嵌套循环算法(3)基于单元的算法憾耽干程溢审傲挛南藩厄泻策公

6、抹梨蜕畏傍拱唾缚昧土旗譬演雅莉衷更株离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法基于距离和(distancesum-based,DS)检测算法:与DB(p,d)孤立点一样,DS孤立点挖掘算法使用同样的距离公式,如绝对距离或欧式距离,但不根据p和d来判定孤立点,而是先计算数据对象两两之间的距离,再计算每个对象与其他对象的距离之和。设M为用户期望的孤立点个数,则距离之和最大的前M个对象即为要挖掘的孤立点,这样可消除用户设置参数p和d的需要。锦地嵌仑孩菊饰武泽陪趴营悄询肘珠缮字腐瘟禁杨缓网撤煽粮骸挨壮澜日离群点分析ppt课件离群点分析p

7、pt课件四种常见的离群点检测方法案例:孤立点挖掘在高等学校科技统计数据分析中的应用孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据)甘肃省2010年科技统计上报数据中的一所高校数据对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属性。沧远帽拈闯局莽锌甚插槽狡二潜墩栅交毋拘流

8、婉付余砒惯菩刽檬剐蚕抢日离群点分析ppt课件离群点分析ppt课件四种常见的离群点检测方法实验及结果分析用DS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。