数据清洗方法ppt课件.pptx

数据清洗方法ppt课件.pptx

ID:51746418

大小:1.14 MB

页数:26页

时间:2020-03-02

数据清洗方法ppt课件.pptx_第1页
数据清洗方法ppt课件.pptx_第2页
数据清洗方法ppt课件.pptx_第3页
数据清洗方法ppt课件.pptx_第4页
数据清洗方法ppt课件.pptx_第5页
资源描述:

《数据清洗方法ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、目录一、数据清洗工作流程二、数据清洗内容三、数据清洗规则四、数据清洗策略五、证件号码清洗报告1一、数据清洗工作流程2(一)必录项及重要指标项空缺(二)指标值异常(三)指标值之间逻辑关系异常(四)业务逻辑关系异常(五)贫困户、贫困人口重复二、数据清洗内容3(一)必录项及重要指标项空缺1.贫困户识别标准为空2.贫困户属性为空3.主要致贫原因为空4.脱贫状态标识为空5.行政区划为空6.证件号码为空三、数据清洗规则4(一)必录项及重要指标项空缺7.文化程度为空8.健康状况为空9.劳动技能为空10.务工状况为空11.在校生情况为空……三、数据清洗规则5(二)指标值异常

2、1.证件号码不符合校验规则2.其他致贫原因超过两项3.出生日期与身份证号中的出生日期不符三、数据清洗规则6(二)指标值异常4.务工时间不符合指标采集规范5.人均纯收入为0或超5位数6.与村主干路距离超过50公里……三、数据清洗规则7(三)指标值之间逻辑关系异常1.务工状况为“非务工”,务工时间不为02.贫困户无务工人员,却有工资性收入3.贫困人口丧劳,有外出务工情况三、数据清洗规则8(三)指标值之间逻辑关系异常4.年收入逻辑关系异常5.人均纯收入逻辑关系异常6.低保贫困户无低保金三、数据清洗规则9(三)指标值之间逻辑关系异常7.“与户主关系”和“性别”不符8

3、.贫困户“家庭人数”与实际人口数不符9.贫困户存在多个户主10.残疾人无残疾证三、数据清洗规则10(四)业务逻辑关系异常1.贫困户家庭无在校生,主要致贫原因为“因学”2.贫困户家庭无残疾人,主要致贫原因为“因残”3.贫困户家庭成员健康状况全部为“健康”,主要致贫原因为“因病”。三、数据清洗规则11(四)业务逻辑关系异常4.返贫户在上一年度贫困户属性非“已脱贫”5.贫困户空挂7.脱贫户人均纯收入低于国家贫困标准8.年龄在16-60周岁的健康人口劳动能力为“丧劳”9.五保户(含五保贫困户、五保农户)存在年龄在16-60周岁的劳动力三、数据清洗规则12(五)贫困户

4、、贫困人口重复(1)姓名不一致,如:王思妍,王恩妍(2)性别不一致(3)文化程度不一致(4)……三、数据清洗规则13(五)贫困户、贫困人口重复(5)多省交界处,户籍地混乱三、数据清洗规则14(6)仅“识别标准”不同(7)仅“家庭人员数量”不同(8)家庭成员互为户主(9)拆户分户情况(10)嫁娶、改嫁,户口迁移情况三、数据清洗规则15(一)后台批量处理1.指标值含有空字符2.指标值含有特殊字符3.非指标体系代码选项4.指标值间存在逻辑关系,如错误出生日期可从正确身份证中提取并做更新处理四、数据清洗策略16(二)前台核实修改1.提取待清洗数据逐级下发2.基层扶贫

5、部门核实修改(三)前台采集补录1.将应填未填项逐级下发2.基层扶贫部门采集录入四、数据清洗策略17(一)清洗内容1.证件号码重复2.证件号码有误3.证件类型值异常4.证件类型与证件号码不符五、证件号码清洗报告18(二)清洗规则1.证件号码重复2.证件号码包含空字符3.证件号码位数非15、18、20位4.18位身份证是否符合校验规则5.20位残疾证是否符合校验位及残疾类型、等级规则6.证件类型为空或非指标体系代码项7.证件类型与证件号码不符五、证件号码清洗报告19(五)清洗策略1.证件号码清洗(1)证件号码重复的,提取问题数据并提供修改建议,逐级下发,由基层扶

6、贫部门核实后在前台修改(2)证件号码未采集的(空值),将问题数据逐级下发,由基层扶贫部门进行前台采集补录(3)证件号码包含空字符的,首先从后台批量剔除空字符,然后再进行一轮数据清洗处理五、证件号码清洗报告20(五)清洗策略1.证件号码清洗(4)非15、18、20位的证件号码,除中国人民解放军军官证以外,其他证件类型的证件号码,提取问题数据逐级下发,前台核实修改(5)15位证件号码,需升级为18位,将问题数据逐级下发,前台采集补录五、证件号码清洗报告21(五)清洗策略1.证件号码清洗(6)对于证件号码为18、20位的错误数据,证件号码中第18位校验码应为“X”

7、,但原采集录入为“x、全角X、*、×”等字符的,可通过后台批量处理,统一替换为英文半角大写X;其他情况需提取问题数据逐级下发,由基层扶贫部门核实后在前台修改五、证件号码清洗报告22(五)清洗策略2.证件类型清洗(1)证件类型为空的,如果证件号码符合身份证和残疾人证校验规则,可以通过后台批量处理;否则逐级下发问题数据,通过前台采集补录(2)证件类型非指标体系代码项的数据,如指标值记录为“1”的数据,且证件类型确应为“居民身份证(户口簿)”,通过后台批量处理,统一将证件类型修改为“01”五、证件号码清洗报告23(五)清洗策略3.证件类型与证件号码不符(1)已通过

8、身份证规则校验的18位证件号码,若证件类型为“残疾人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。