数据中异常值的处理方法-总.doc

ID：55718114

大小：71.00 KB

页数：9页

时间：2020-05-26

资源描述：

《数据中异常值的处理方法-总.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、.数据中异常值的检测与处理方法一、数据中的异常值????????:·??????:????,??????????????????????????:?????????$100,000?????????????????????????100???,????10????,???????,???????·????: ?????????????????????????????????:?10???????9?????,1??????????????????????????????/???????????????????????·????:?????

2、??????????????:???????100????,???????????“出发”?信号,????????,???????????????????????????????????·??????: ?????????????????????????:??????假???????????????????????????????????????,??????????假???量?·??????:??????????,???????????????????????????????????·????: ??,????????????????

3、,??????????????????????????????????·?????: ?????????(????),?????????????：??????50??????????????????????,????????????,?????????,???????????的数据?在以上的异常值类型中，对于房地产数据，可能出现的异常值类型主要有：(1)??????，例如房产经纪人在发布房源信息时由于输入错误，而导致房价、面积等相关信息的异常；在数据的提取过程中也可能会出现异常值，比如在提取出售二手房单价时，遇到“1室7800元/m2”，

4、提取其中的数字结果为“17800”，这样就造成了该条案例的单价远远异常于同一小区的其他房源价格，如果没有去掉这个异常值，将会导致整个小区的房屋单价均值偏高，与实际不符。(2)??????..，可能会存在一些人，为了吸引别人来电询问房源，故意把价格压低，比如房屋单价为1元等等；(3)?????。房价中也会有一些实际就是比普通住宅价格高很多的真实价格，这个就需要根据实际请况进行判断，或在有需求时单独分析。一、数据中异常值的检测????????检测:1、四分位数展布法方法[1]：大于下四分位数加1.5倍四分位距或小于上四分位数减1.5倍。把数据

5、按照从小到大排序，其中25%为下四分位用FL表示，75%处为上四分位用FU表示。计算展布为：，展布（间距）为上四分位数减去下四分位数。最小估计值（下截断点）：最大估计值（上截断点）：数据集中任意数用表示，，上面的参数1.5不是绝对的，而是根据经验，但是效果很好。计算的是中度异常，参数等于3时，计算的是极度异常。我们把异常值定义为小于下截断点，或者大于上截断点的数据称为异常值。优点：与方差和极差相比，更加不容易受极端值的影响，且处理大规模数据效果很好。缺点：小规模处理略显粗糙。而且只适合单个属相的检测。..1、识别不遵守分布或回归方程的值方

6、法：双变量和多变量离群值通常使用影响力或杠杆指数或距离来衡量，像Mahalanobis的距离和Cook‘sD这样的流行指数经常被用来检测异常值。在SAS中，我们可以使用PROCUnivariate,PROCSGPLOT，为了识别异常值和有影响力的观测，我们还研究了STUDENT、COOKD、RSTUDENT等统计指标。马氏距离法[1]：假设两个变量Xi和Xj具有较高的正相关关系，某样本Xk在这两个变量上的取值为（Xki，Xkj），若Xki远远大于Xi的平均值，而Xkj却远小于Xj的平均值，则这个样品就很可能是异常的。检验这种异常品可以采用

7、马氏平方距离法。主要思想是：把n个P维样品看作p维空间中的n个点，则第i个样品所对应的坐标为（Xi1，Xi2，…，Xip）。样品在空间中的相对位置可通过各样品与总体重心（以各变量均值（X1，X2，…，Xp）为坐标的点）之间的距离来求得。设X(1)，X(2)，…，X(p)（其中（Xi1，Xi2，…，Xip）为来自Np中的n个样品，其中则样品X(i)到重心的马氏平方距离定义为..其中可由样本协方差阵来估计容易证明，当n较大时，近似服从其临界值可由分布表来查出、当时，将第i个样品判为异常。稳健马氏距离：由于异常值的存在会显著影响中心值和协方差矩

8、阵的估计，使一般马氏距离不能正确反映各个观测的偏离程度。对于这类数据，需要通过稳健统计的方法，构建稳定的均值和协方差矩阵统计量。具体算法：设数据集为一个n行p列的矩阵Xn×p，从中随机抽取h个

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据中异常值的处理方法-总.doc

数据中异常值的处理方法-总.doc

相关文章

相关标签