数据中异常值的处理方法_总.doc

数据中异常值的处理方法_总.doc

ID:59268738

大小:88.00 KB

页数:9页

时间:2020-09-08

数据中异常值的处理方法_总.doc_第1页
数据中异常值的处理方法_总.doc_第2页
数据中异常值的处理方法_总.doc_第3页
数据中异常值的处理方法_总.doc_第4页
数据中异常值的处理方法_总.doc_第5页
资源描述:

《数据中异常值的处理方法_总.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.......数据中异常值的检测与处理方法一、?据中的?常?各??型的?常?:·?据?入??:?据收集,??或?入?程中出?的人???可能?致?据?常。例如:一?客?的年收入是$100,000。?据?入?算符偶然?在?中增加一?零。?在收入是100万美元,是?在的10倍。?然,?其他人口相比,??是?常?。·?量?差: ?是最常?的?常??源。?是在使用的?量?器出?故障?引起的。例如:有10台?重机。其中9?是正?的,1?是??的。有??的机器上的人?量的重量?比?中其他人的更高/更低。在??的机器上?量的重量可能?致?常?。·????:?常?的?一?原因是????。?例??:在七名?步者的

2、100米短?中,一名?步者??了?注于¢®¡Æ出?¡±的信?,?致他?到。因此,??致?步者的?步??比其他?步者多。他的??行??可能是一??群?。·故意的?常?: ?在涉及敏感?据的自我?告的度量常被??。例如:?少年通常?假?他?消耗的酒精量。只有一小部分??告??价?。?里的???可能看起?像?常?,因?其余的?少年正在假?消?量。·?据?理??:?我??行?据?掘?,我??多??源提取?据。某些操作或提取??可能??致?据集中的?常?。·抽???:  例如,我?必??量???的身高。??地,我?在?本中包括一些?球???。??包含可能??致?据集中的?常?。·自然?常?: ??常?不

3、是人?的(由于??),?是一?自然的?常?。例如:保?公司的前50名理???的表???高于其他人。令人??的是,?不是由于任何??。因此,?行任何?据?掘?,我??分??理???分的?据。S..............在以上的?常??型中,?于房地??据,可能出?的?常??型主要有:(1)?据?入??,例如房???人在?布房源信息?由于?入??,而?致房价、面?等相?信息的?常;在?据的提取?程中也可能?出??常?,比如在提取出?二手房?价?,遇到¢®¡Æ1室7800元/m2¢®¡¾,提取其中的?字?果?¡°17800”,??就造成了??案例的?价???常于同一小?的其他房源价格,如果?有去掉

4、???常?,???致整?小?的房屋?价均?偏高,???不符。(2)故意的?常?,可能?存在一些人,?了吸引?人????房源,故意把价格?低,比如房屋?价?1元等等;(3)自然?常?。房价中也?有一些??就是比普通住宅价格高?多的??价格,??就需要根据?????行判?,或在有需求???分析。一、?据中?常?的??各??型的?常???:1、四分位?展布法方法[1]:大于下四分位?加1.5倍四分位距或小于上四分位??1.5倍。把?据按照?小到大排序,其中25%?下四分位用FL表示,75%??上四分位用FU表示。?算展布?:,展布(?距)?上四分位??去下四分位?。最小???(下截?点):最大???

5、(上截?点):?据集中任意?用表示,,上面的??1.5不是??的,而是根据??,但是效果?好。?算的是中度?常,??等于S..............3?,?算的是?度?常。我?把?常?定??小于下截?点,或者大于上截?点的?据???常?。?点:?方差和?差相比,更加不容易受?端?的影?,且?理大?模?据效果?好。缺点:小?模?理略?粗?。而且只适合???相的??。1、??不遵守分布或回?方程的?方法:??量和多?量?群?通常使用影?力或?杆指?或距??衡量,像Mahalanobis的距?和Cook‘sD??的流行指??常被用????常?。在SAS中,我?可以使用PROCUnivariate,

6、PROCSGPLOT,?了???常?和有影?力的??,我???究了STUDENT、COOKD、RSTUDENT等??指?。?氏距?法[1]:假????量Xi和Xj具有?高的正相??系,某?本Xk在????量上的取??(Xki,Xkj),若Xki??大于Xi的平均?,而Xkj却?小于Xj的平均?,????品就?可能是?常的。?????常品可以采用?氏平方距?法。主要思想是:把n?P??品看作p?空?中的n?点,?第i??品所??的坐??(Xi1,Xi2,¢®

7、,Xip)。?品在空?中的相?位置可通?各?品???重心(以各?量均?(X1,X2,¢®

8、,Xp)?坐?的点)之?的距??求得。?X(1)

9、,X(2),¢®

10、,X(p)(其中(Xi1,Xi2,¢®

11、,Xip)??自Np中的n??品,其中??品X(i)到重心的?氏平方距?定??S..............其中可由?本?方差????容易?明,?n?大?,近似服?其?界?可由分布表??出、??,?第i??品判??常。?健?氏距?:由于?常?的存在??著影?中心?和?方差矩?的??,使一般?氏距?不能正?反映各???的偏?程度。?于???据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。