电信数据挖掘数据质量评估技术探究

电信数据挖掘数据质量评估技术探究

ID:46770998

大小:67.00 KB

页数:6页

时间:2019-11-27

电信数据挖掘数据质量评估技术探究_第1页
电信数据挖掘数据质量评估技术探究_第2页
电信数据挖掘数据质量评估技术探究_第3页
电信数据挖掘数据质量评估技术探究_第4页
电信数据挖掘数据质量评估技术探究_第5页
资源描述:

《电信数据挖掘数据质量评估技术探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、电信数据挖掘数据质量评估技术探究摘要:近年来,随着数据挖掘技术的不断更新与完善,无论是应用范围还是应用深度都是大幅度增加。在电信领域中也是得到了快速的应用与发展。因此,对其的研究工作既具有理论价值,又具有实际应用价值。本文首先对数据挖掘有关概念进行分析,然后,对电信数据挖掘的数据质量评估技术进行详细探索,希望能够为有关的研究人员提供一些帮助。关键词:电信数据挖掘;数据质量评估;应用分析中图分类号:TN91文献标识码:A文章编号:1001-828X(2012)11-0-01数据挖掘技术能够对海量数据中的需求数据进行快速、高效、准确的进行提取,其在电信领域中

2、的应用为相关的工作人员节省了大量的工作时间和精力,提高了工作效率以及行业的经济收入。其在电信领域中的主要应用包括:客户细分、流失预测以及话费欺诈分析等。尽管在理论方面其功效很好,但是,由于实际的应用环境以及技术等方面的客观原因,目前电信数据的质量相对较差。所以,在数据挖掘之前,数据质量评估工作是非常有必要的。本文首先对数据挖掘有关概念进行分析,然后,对数据评估体系中的一些关键技术进行分析,最后,基于电信欠费挖掘主题的数据质量评估方法进行阐述。—、数据挖掘的数据质量评估数据质量评估是对数据质量进行管理的工作内容之一,其主要负责对数据问题进行发现,并对其驱动

3、力和风向标进行改善。数据质量属于多为概念类型,其中的任何一个维度都表示一类审视数据质量的角度,例如:可靠度、完备度等。数据质量评估主要是以需求作为导向,不同的应用背景之下相同的数据所能接受的程度有所不同,所以,实际上需求分析是对维度的选择过程。数据质量分析基于不同的质量维度,以动态或者静态的方式对数据进行审视。二、电信数据质量评估关键技术分析基于类分布的属性加权算法属性加权能够对所分类的数据中输入以及目标属性的相关性进行加权体现。其中权责越大,说明相关程度越大,输入属性也就更为重要。所以,其属性上的有关数据质量问题产生的负面作用也就越大。、该算法根据输入

4、属性的每个取值所对应的记录集合中正类记录的比例与数据集的倾斜度之间的差异大小来衡量该属性与目标属性之间的关联度;差异越小,则关联越小。数据挖掘面对的通常是高维数据,仅凭经验很难把所有的重要属性都识别出来,CAWA能在不依靠经验的基础上实现属性重要程度的量化。2•基于属性的缺失评估算法该类算法主要是从两方面进行考虑:丢失了不同输入属性,其分类结果受到的影响也是有所不同,程度也不一样;正类记录和负类记录的不同缺失给分类结果造成了影响以及程度也是有所不同的。所以,针对缺失值方面,不应该仅仅从属性的角度进行加权计算,还要从正负记录等方面进行加权计算。并且,往往在

5、非平衡数据当中,正类记录上的缺失导致的影响要远远高于负类记录缺失所产生的影响。这种基于属性加权的缺失评估算法是在属性加权算法的基础上进行研究开发的,其充分考虑到了数据的非平衡性,并且,将具有不同属性以及不同记录的全部缺失值进行加权计算,从而得出最终的评估结果。3•非平衡离群评估算法一般情况下,离群存在两种可能,其中一种是对出现异常情况真实反映,而另一种情况则是出现了噪音。这两种情况在实际工作中很难进行区分。因为,数据挖掘其处理的数据都是以静态形式存在的,很难扑捉到其产生的真正机制。从电信数据非平衡性显著方面考虑,可以得出以下的一些分析结果。在非平衡数据集

6、的超图模型中,正类和负类点分别对应数据集中的正类和负类记录。从原则上讲,正类离群点和负类离群点在某种意义上都有出现噪音的可能,从而影响到分类结果。但是,如果数据质量比较高的话,正类点在全部的数据点中发生离群现象的可能性相对较大,而其导致的原因极有可能是出现了异常行为。而此时,负类点出现离群现象的几率却比较小,如果出现了离群现象,发生噪音的可能性非常高。在进行非平衡数据集分类过程当中,需要特别关注的就是正类群体相对于负类群体出现了异常行为现象,因为,此时负类群体的离群现象往往会导致分类器对正类点的分辨出现失误,从而致使最终的分类结果准确率严重不足。特别是当

7、负类离群点在一些关键属性组合之下往往能够出现与众多正类点类似的表现。所以,把负类群体的离群程度放到电信数据质量评估体系当中是非常有必要的。电信数据通常是高维数据,这里使用超图离群检测算法寻找负类离群点。基于超图的离群点是局部属性意义下的,即离群仅表现在输入属性集合的某一个子集上。离群点的绝对离群程度可由点所在的簇对窗口的规模偏差来表示,考虑到各个输入属性对分类结果的重要性不同,定义在不同属性子集上的离群点对分类结果的影响也是不同的,所以要对绝对离群程度加权。由上面的分析可以得出,离群评估并不针对正类记录,其主要思想就是利用超图离群检测算法对负类离群点进行

8、查找,并对这些负类点的离群度进行计算,非平衡离群评估算法首先是通过超图离群检测算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。