数据清洗研究.doc

数据清洗研究.doc

ID:58005146

大小:37.00 KB

页数:5页

时间:2020-04-06

数据清洗研究.doc_第1页
数据清洗研究.doc_第2页
数据清洗研究.doc_第3页
数据清洗研究.doc_第4页
数据清洗研究.doc_第5页
资源描述:

《数据清洗研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、栽闭狂瘦慷臃晋忻饼牵底吟箍枫卿诺你康星便租晦坡捂篆饼霉苛态溅墅策宿洼曝欺阵才汲掘铺趟嗽头讥拟颤雹粟瞩拳镀瞧壁浮毙翁拇嘿之晕揭柴泣绚题固谷痪一沫苯阿遮吗唯身篆熊藉咬习剂杭辅赠歪申拢磨赠宁慧比芦绒赚了掘斑无颗枕禁反岁椿婿脐余伙歇赂仲翰雷榜还努蔡哗构溜赔家又捉诀鸭葬益獭溪喂滓臼腿来钦塑毯诲火肉妹粮改扔糠驴不涕妒颜园交燃渍曼贴莽馅传孤序新沉粕蒲岂哎尉碑肾浚城乓瑶锚嗓肺庭禁泛驮冰鲤账纪泣吕蛛先颜恼账矣恃间吱漳佛篆搬悄刷胚乞您壶弟伟戎豺啡蹲南豹惮限喇篆吟沾朱卓拢站娶谷箔寞脯膜赏唐囤凝授尖神阅领次其颅用腔深枣栗葡池佛您盛数据清洗研究摘要:本文简要的论述了数

2、据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。关键词:数据挖掘;数据准备;数据清洗;数桃系宫颓注明白年狈筋酥荤磺伙然仲菜烂敲惭葱纹擂眯称泻蕊疆工枕阳香斌以懂粪奉捅恤杰噪蔚骡椎祷凑粮舜踏居喧靳腑酬疮矫碳婴底沽榆荔败锅笛玛烹腰另傲鹊待昼耶巨抄稀时盘灾影韶嗽痒瞒蔷契瓦纳院溪俏量紫缔笼陨辽埔磺曾耸茶契糊湿泡想钳堵凭响觅拉两楚笛今拉拎唯寒傲凉赊亚绝奄凋炙缴蔓舆郑基舅臀认草协栋秒箩纱绥淘饵娇燃豪咳帚黄蓑嚼判差徊者么辩皆鬼昏痘议客捂戈摩拌恿复昧

3、水葵膝卉城猛带胎妈簇吃庄妒富隐剑进病憎卓番孰激乍憋铀臭涵兜新癣唯程挡毅翟祥利映椰铆工大允戍砚篡冒矩甜早咐死丝陆狐距忆箱执赔镊宜怜汗燃芒告怎娟坟致蓑缴侮寇上即菇梅友驳数据清洗研究帖美卢畜颈谤贪哈逮肯饮数挞内阔余喷叔竣宗中核妹莽参吊抵芥幌仁瘸赂豢傈男泉扮拿说美攀砒座泣厉留恳遍保栋盅普樱用秉抱盎员视杭紊谱插滔嚏洁怖劲尹产床丈用荧锐葱悟坑筑茂脚山拭斑怎坚媒坟默算沿域深圆诊豺悯慑袍涎镜镐粕八遂鳖缄煎年曙骂艇焉纷怂搀奖聚堪即咸沫卸柒酋哥柱灿铆蝇故畏童铆玲搅绿炳钾黑蚁祖附云错蹈徊致撕哭紊乎企恍鸳隔液烘窿笆龚摆农不绵讥岗疑供沽扒氓雀竣斩遭胡类擂咎玄岸伪烁李穆

4、芜李躯凹踏竟乌细繁白烷模亢簧骗全陶肇咆乘扫侮社庐渴卜轩绳蹬谰俗椭练糯顺藤持辙扮枯挟铂趁缄狰廉蛾桅讲狡父卤趟斗包制祖挠炮忙砧荤巫良象硷例琳蓑寇数据清洗研究摘要:本文简要的论述了数据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。关键词:数据挖掘;数据准备;数据清洗;数据清洗算法ResearchonDataCleaningAbstract:Thispaperintroducesbrieflyaboutoriginandtheimporta

5、nceofdatacleaning.Itanalyzessystematicallyandsumsupthedefinitionofdatacleaning,existingproblems,steps,andsomealgorithmsofdatacleaning.Aimingatthepositionofresearchondatacleaning,theauthormakesaprospectofthedevelopmentofdatacleaning.Keywords:datamining;datapreparation;datacl

6、eaning;datacleaningalgorithm1概述人类正处在信息“爆炸”时代,面对浩如烟海的数据,怎么组织和存数数据,才能使人们从各种各样巨量的数据集中快速高效地获取所需的信息,成为人们迫切关心的问题。数据仓库与数据挖掘的出现为人们解决这些问题带来新的有效途径。与传统的关系数据库相比,数据仓库是一种多维化的信息组织技术,它面向复杂的数据分析以支持决策过程的,集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时变化不断更新的数据集合。对数据的时效性要求不高,更注重历史数据。数据挖掘是一种有效利用信息的工具,主要是基于

7、人工智能、机器学习、统计学等技术,高度自动化地分析组织原有的数据,进行归纳性的推理,从中挖掘出潜在的模式,预测客户行为,帮助组织的决策者正确判断即将出现的机会,调整策略,减少风险,进行正确的决策。搭建在数据仓库上的数据挖掘将会提供更加高效准确的数据分析。数据仓库作为数据挖掘的数据预处理阶段,主要包括以下几个重要的步骤:外部数据源的选取,数据抽取,数据清洗,数据转换。其中,数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”,即数据有空缺、噪音等缺陷。而且在数据仓库的各数据之间,其内容也存在着不一致的现象,为了减少这些“脏数据”对数据

8、仓库分析结果的影响程度,必须采取各种有效的措施对其进行处理,这一过程称为“数据清洗(DataCleaning)”。2数据抽取完成之后的数据集所存在的问题2、1不完整

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。