资源描述:
《数据中异常值的处理方法-总.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、.数据中异常值的检测与处理方法一、数据中的异常值????????:·??????:????,??????????????????????????:?????????$100,000?????????????????????????100???,????10????,???????,???????·????: ?????????????????????????????????:?10???????9?????,1??????????????????????????????/???????????????????????·????:?????
2、??????????????:???????100????,???????????“出发”?信号,????????,???????????????????????????????????·??????: ?????????????????????????:??????假???????????????????????????????????????,??????????假???量?·??????:??????????,???????????????????????????????????·????: ??,????????????????
3、,??????????????????????????????????·?????: ?????????(????),?????????????:??????50??????????????????????,????????????,?????????,???????????的数据?在以上的异常值类型中,对于房地产数据,可能出现的异常值类型主要有:(1)??????,例如房产经纪人在发布房源信息时由于输入错误,而导致房价、面积等相关信息的异常;在数据的提取过程中也可能会出现异常值,比如在提取出售二手房单价时,遇到“1室7800元/m2”,
4、提取其中的数字结果为“17800”,这样就造成了该条案例的单价远远异常于同一小区的其他房源价格,如果没有去掉这个异常值,将会导致整个小区的房屋单价均值偏高,与实际不符。(2)??????..,可能会存在一些人,为了吸引别人来电询问房源,故意把价格压低,比如房屋单价为1元等等;(3)?????。房价中也会有一些实际就是比普通住宅价格高很多的真实价格,这个就需要根据实际请况进行判断,或在有需求时单独分析。一、数据中异常值的检测????????检测:1、四分位数展布法方法[1]:大于下四分位数加1.5倍四分位距或小于上四分位数减1.5倍。把数据
5、按照从小到大排序,其中25%为下四分位用FL表示,75%处为上四分位用FU表示。计算展布为:,展布(间距)为上四分位数减去下四分位数。最小估计值(下截断点):最大估计值(上截断点):数据集中任意数用表示,,上面的参数1.5不是绝对的,而是根据经验,但是效果很好。计算的是中度异常,参数等于3时,计算的是极度异常。我们把异常值定义为小于下截断点,或者大于上截断点的数据称为异常值。优点:与方差和极差相比,更加不容易受极端值的影响,且处理大规模数据效果很好。缺点:小规模处理略显粗糙。而且只适合单个属相的检测。..1、识别不遵守分布或回归方程的值方
6、法:双变量和多变量离群值通常使用影响力或杠杆指数或距离来衡量,像Mahalanobis的距离和Cook‘sD这样的流行指数经常被用来检测异常值。在SAS中,我们可以使用PROCUnivariate,PROCSGPLOT,为了识别异常值和有影响力的观测,我们还研究了STUDENT、COOKD、RSTUDENT等统计指标。马氏距离法[1]:假设两个变量Xi和Xj具有较高的正相关关系,某样本Xk在这两个变量上的取值为(Xki,Xkj),若Xki远远大于Xi的平均值,而Xkj却远小于Xj的平均值,则这个样品就很可能是异常的。检验这种异常品可以采用
7、马氏平方距离法。主要思想是:把n个P维样品看作p维空间中的n个点,则第i个样品所对应的坐标为(Xi1,Xi2,…,Xip)。样品在空间中的相对位置可通过各样品与总体重心(以各变量均值(X1,X2,…,Xp)为坐标的点)之间的距离来求得。设X(1),X(2),…,X(p)(其中(Xi1,Xi2,…,Xip)为来自Np中的n个样品,其中则样品X(i)到重心的马氏平方距离定义为..其中可由样本协方差阵来估计容易证明,当n较大时,近似服从其临界值可由分布表来查出、当时,将第i个样品判为异常。稳健马氏距离:由于异常值的存在会显著影响中心值和协方差矩
8、阵的估计,使一般马氏距离不能正确反映各个观测的偏离程度。对于这类数据,需要通过稳健统计的方法,构建稳定的均值和协方差矩阵统计量。具体算法:设数据集为一个n行p列的矩阵Xn×p,从中随机抽取h个