欢迎来到天天文库
浏览记录
ID:10769797
大小:59.00 KB
页数:5页
时间:2018-07-08
《基于数据挖掘客户关系管理设计与研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于数据挖掘客户关系管理设计与研究【摘要】以下是小编精心为您编辑整理的基于数据挖掘客户关系管理设计与研究,供您参考,我们会持续更新,请留意,更多详细内容请点击查看。1引言本课题研究的公司其客户的不断增加,为了减少公司的投入以及更有效的利用公司现有的人力资源,将所有客户适当分类势在必行。随着公司客户的不断增加,和客户相关的信息资料也不断增加,这就要求公司投入更多的人力和物力来整理这些庞杂信息资料,而且为了更有效的利用公司现有的人力资源,将所有客户适当分类也势在必行。很显然,如果仅仅依靠传统人工技术,这将是一项非常困难的工作。
2、本文就是选择好的解决方法。通过公司的mis系统,可以搜集到关于客户的基本信息、客户近段时间内的访谈记录、客户的销售确认单(SO单)、客户拥有的设备等信息资料。接下来的工作就是如何从这些信息资料中挖掘出公司所需要的知识。我们需要解决的问题如下:1)用户的根本需要,即用户需要发现什么?2)用户对现有数据中的哪些属性更加关注?3)数据挖掘的目的是什么?2系统的概要设计2.1设计目标需要是发明之母。对每个问题有了一个比较清晰的结论才可以进行以后的工作,才可以保证以后的工作的有用性。期望的结果如下:1)用户需要对所有客户合理分类,为
3、公司制定各种营销和服务活动打好基础;2)用户对数据中客户的SO单、访谈记录数量等更加关注;3)数据挖掘的目的是选择合适的分类算法将公司的客户合理分类。由上面的问题分析可以分析出用户的需求:用户已经有了一个业务数据库,而且积累了大量的数据,用户希望可以利用这些数据将客户合理分类,以便公司制定各种营销和服务活动,增加销售收入。2.1数据预处理数据预处理技术可以改进数据的质量,对挖掘数据进行压缩、归约等处理,从而有助于提高其后的挖掘过程的精度和运行性能。数据预处理包括一些复杂的过程,一般包括数据清理、数据集成、数据变换、数据归约
4、。1)数据清理。数据清理要去除数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,取出空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等。主要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。论文参考。比如,数据库中大量存在null值,这将会影响我们最终的挖掘结果,怎样才能为该属性填上空缺的值呢?我们可以忽略该条记录,也可以使用最可能的值人工填写空缺值,或者使用一个全局常量(或该属性的平均值)填充空缺值。论文参考。2)数据集成。数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模
5、糊性。该部分主要涉及数据的选择、数据的冲突解决以及不一致数据的处理问题。比如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的customer_number指的是同一实体?通常,我们通过元数据(关于数据的数据)来解决这个问题,这种元数据可以帮助避免模式集成中的错误。3)数据变换。数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括:规格化、归约、切换、旋转和投影等操作。比如,在数据库的客户信息表中并没有设置某个字段来记录客户的访谈记录情况(>
6、;=40或20...40或<=20),通过SQL语句也只是能得到该客户的访谈记录的具体数量,这里就必须进行数据变换,将属性数据离散化,以适应数据挖掘的需要。4)数据归约。有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。因此,有效的缩减数据是很必要的。5)事实表:把所有的度量值合成到一张表中,这张表就是事实表,事实表中存放的是所有用户所关心的数据,分析时通过按不同的维度,查看、翻转、切片数据来得到关心的信息。6)维度表:维度表存放了事实数据的描述信息,一般包括时间、地
7、点等信息。3所选分类算法的研究3.1决策树的生成本次数据挖掘的基本算法可以描述如下:首先确定所要生成的决策树的相关分类C,如关键客户,主要客户,一般客户,潜在客户。树以代表训练样本的单个节点开始。如果样本都在属于C,则该节点成为树叶,并标记该节点的概率权值为1。否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。该属性成为节点的测试或判定属性。对于测试属性的每个已知的值,创建一个分支,并据此划分样本。论文参考。算法使用同样的过程,递归的形成每个划分上的样本决策树。一旦一个属性出现在一个节点
8、上,就不会在该分支再次出现。递归划分步骤当且仅当下列条件之一成立时停止:1)给定节点的所有样本都属于C或者都不属于C。此时当前节点成为叶子节点,并标记该节点的概率权值为1或0。2)有剩余属性可以用来进一步划分样本。此时当前节点成为叶子节点,并标记该节点的概率权值为C类样本在样本中所占比例。3)分支tes
此文档下载收益归作者所有