基于动态分类器集成选择的不完整数据客户分类方法实证研究

基于动态分类器集成选择的不完整数据客户分类方法实证研究

ID:33614780

大小:407.73 KB

页数:6页

时间:2019-02-27

基于动态分类器集成选择的不完整数据客户分类方法实证研究_第1页
基于动态分类器集成选择的不完整数据客户分类方法实证研究_第2页
基于动态分类器集成选择的不完整数据客户分类方法实证研究_第3页
基于动态分类器集成选择的不完整数据客户分类方法实证研究_第4页
基于动态分类器集成选择的不完整数据客户分类方法实证研究_第5页
资源描述:

《基于动态分类器集成选择的不完整数据客户分类方法实证研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、市场营销基于动态分类器集成选择的不完整数据客户分类方法实证研究111,2张婷婷贺昌政肖进(1.四川大学工商管理学院,成都610064;2.中国科学院数学与系统科学研究院,北京100190)摘要:在管理决策的制定中,分类已经成为一种十分重要的方法和技术。由于现实客户数据常常是不完整的,因此,研究不完整数据的客户分类问题具有重要意义。通过分析以往分类过程中对不完整数据的处理方法,提出了一种基于动态分类器集成选择的不完整数据分类方法DCES-ID。分别在UCI客户分类数据集以及某券商客户数据集上进行分类的实验和实证分析。结果表明,与已有的6种分类算

2、法相比,DCES-ID算法具有更高的分类准确性及稳定性,能够更有效地进行客户分类。关键词:客户分类;证券公司;不完整数据;动态分类器集成选择(DCES);贝叶斯分类器引言在管理决策的制定中,分类已经成为一种十分重要的决策方法,同时它也是数据挖掘的主要方法。然而[1]在客户分类问题中,这种分类数据往往是不完整的,是包含大量缺失数据的。这些缺失数据的存在不仅为分类带来了极大的不便,也为分类结果的准确性带来了极大的挑战。由于处理不完整数据的复杂性,以往的分类器大都是针对完整数据的。然而,由于各种原因,实际中的数[2]据通常是不完整的。因此,对用于不

3、完整数据的分类器的研究具有重要的意义。为此,很多人都对这一问题做了大量的研究工作。常用的处理方法有两种,一种是在进行分类时将含有缺失数据的样本直接删除,即直[3][4]接删除法;另一种是为缺失的数据项设置某个取值,即插补法,它的具体方法有参数估计法(如EM算法[5,6][3,7]等)、单值插补(如均值替代等)以及多重插补等,或者也可以将某一变量的缺失值作为它的一个新的状[8]态。例如Friedman等人提出采用EM算法、线性回归等方法先对数据进行插补,然后再根据补全后所得的完整数据集进行分类计算。[9]然而,这些方法都有很多不足之处,如直接删

4、除法将导致样本中大量重要信息的丢失,而插补法都是基[1]于随机缺失假设的,且都需要假定数据服从某一分布模型,但在实际应用中,各种缺失方式经常是交织在一[10]起的,采用的假设、模型不合理,容易产生数据的偏斜,从而容易引起较大的估计偏差,影响后继分类器的学收稿日期:2010-05-10基金项目:国家自然科学基金项目(71071101;71101100);高等学校博士学科点专项科研基金(20110181120047);国家博士后科学基金(2011M500418);中央高校新青年教师科研启动基金(2010SCU11012);成都市科技局项目(11R

5、KYB035ZF-027)。作者简介:张婷婷,四川大学工商管理学院硕士研究生;贺昌政,四川大学工商管理学院教授,博士生导师,博士;肖进,四川大学工商管理学院讲师,中国科学院数学与系统科学研究院博士后。MANAGEMENTREVIEWVol.24No.06(2012)83市场营销习效果。由此我们可以知道,为了获得更真实的分类结果,不对数据进行插补,直接构建面向缺失数据的客户分类模型是十分必要的。[11]++近年来,已有学者对直接面向缺失数据建模进行了尝试,如Mohammed等人提出的Learn.MF算法,它遵循了一种交替的策略,使用了一种特征属

6、性自由选择的分类器集成的方法。但是该方法中也存在着一些不足之处,比如它在训练分类器时是基于分类器的训练集中不包含缺失数据的假设,但是这种假设在现实数据中往往是不成立的。[12]针对上述的问题,本文提出了一种基于动态分类器集成选择(DCES)的不完整数据客户分类方法(DCES-ID),并将其应用于券商客户数据库上,通过对客户分类方法进行实证对比研究,证明该方法在解决不完整数据分类时的有效性。DCES-ID客户分类方法1、DCES-ID客户分类方法的思想DCES-ID算法是一种基于动态分类器集成选择(DCES)的不完整数据客户分类方法。它基于这样

7、一种假设,即认为在训练分类器时,训练集中含有不同缺失特征个数的样本训练出的分类器性能是不同的。因此它在训练分类器过程中,根据训练集样本含有缺失特征的个数对训练集进行分类,并在每一类训练集中选取一部分特征子集来构建分类器,并允许训练集中包含不完整数据。这样不仅充分利用了含有不同缺失特征水平样本的特性,也减少了训练分类器时删除掉的不完整样本数量,提高了样本信息的利用度。2、DCES-ID客户分类方法的实施DCES-ID客户分类方法在实施时分为2个部分:构建分类器基池和数据分类。算法中共有4个输入项:(1)数据集D;(2)特征子集容量Q;(3)基分

8、类器个数S;(4)测试样本的近邻数K。其中,数据集D是原始数据集,包含M个样本,N个特征;特征子集容量Q为选取的每个特征子集中特征的个数。(1)构建分类器基池步骤1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。