电信数据挖掘的数据质量评估技术研究

电信数据挖掘的数据质量评估技术研究

ID:32472909

大小:3.17 MB

页数:84页

时间:2019-02-06

电信数据挖掘的数据质量评估技术研究_第1页
电信数据挖掘的数据质量评估技术研究_第2页
电信数据挖掘的数据质量评估技术研究_第3页
电信数据挖掘的数据质量评估技术研究_第4页
电信数据挖掘的数据质量评估技术研究_第5页
资源描述:

《电信数据挖掘的数据质量评估技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要近年来,数据挖掘作为海量数据中知识提取的有效手段,已广泛应用于电信领域,如话费欺诈分析、客户细分、客户流失预测、交叉销售等。然而,现实中的电信数据往往质量较差,不能满足数据挖掘的要求,导致数据挖掘在电信中应用的成功案例较少,数据质量低下已成为制约数据挖掘在电信行业应用的主要瓶颈之一,因此,在进行数据挖掘之前,有必要进行数据质量评估,以衡量挖掘的可行性,避免时间和精力的浪费。对于数据质量评估,虽然前人已有较多的研究成果,但大部分集中在框架理论,较少涉及特定的行业背景和具体应用,而面向特定挖掘主题的数据质量评估,尚未有专门的文献讨论。本文针对电信数据挖掘的常用主题一一欠费挖掘,在深入研究

2、缺失和离群对数据挖掘影响的基础上,对面向数据挖掘的数据质量评估技术展开研究,具体的研究工作如下:1.对于缺失评估,提出类分布CD(ClassDistribution)的概念,以衡量各个输入属性和目标属性之间的关联度,基于此,提出类分布差异的属性加权算法CAWA,算法能够区分不同输入属性对分类结果的重要性,并由此提出基于属性加权的缺失评估算法AMEA,以实现数据的缺失评估。实验结果表明,该评估算法能够合理量化缺失对挖掘结果的影响。2.对于离群评估,针对电信数据的特点,尤其是欠费数据非平衡的特性,分析了非平衡数据中的离群点对分类结果的影响,’‘并结合超图离群检测(HOT)算法,提出离群度OD

3、(OutlierDegree)的概念,基于此,提出非平衡离群评估算法IOEA,以实现数据的离群评估。实验结果表明,该离群评估算法能够合理量化离群对挖掘结果的影响。3.在缺失评估和离群评估的基础上,结合电信欠费数据挖掘本身的特点,提出一个较为完整的数据质量评估体系,该体系由缺失评估和离群评估两部分组成,并在实验的基础上,结合电信行业专家经验,给出评估得分向量的参考值。实验结果表明,该参考值能够对挖掘的可行性分析提供有意义的指导。关键词:电信、数据挖掘、欠费主题、数据质量评估、缺失值,非平衡、离群度IIIAbstractInrecentyears,asaneffectivemethodofk

4、nowledgeextraction,datamininghasbeenwidelyusedinthefieldoftelecommunication,forexample,telephonefeefrauddetection,customersubdivision,customerchurnprediction,crossselling,etc.However,telecomdataisusuallyofpoorquality,whichcannotmeettherequirementsofdatamining,andthatiswhythereareSOfewsuccessfulca

5、sesoftelecomdatamining.Poordataqualityhasalreadybeenthebottleneckofdatamining’Sapplicationtothefiledoftelecommunication,SOitisnecessarytodothedataqualityassessmenttomeasuretheavailabilityofdatamining,andthustoavoidtheunnecessarywasteoftimeandenergy.Fordataqualityassessment,therearemanyresearchach

6、ievementsonthatsubject,butmostofthemfocusontheflametheory,whichareseldomrelatedtospecificbusinessbackgroundsandapplications.Tillnow,thereisstillnospecializedliteraturediscussingaboutspecifiedminingsubjectorienteddataqualityassessment.Aimingatinsolvencymining,whichisoneofthemostcommonlyusedsubject

7、softelecomdatamining,basedondeepresearchofhowmissingvaluesandoutliersaffecttheclassificationresult,thisthesisconductsaresearchondataminingorienteddataqualityassessingtechniques.ThemainresearchworkiSlistedasfollows.1.Fo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。