资源描述:
《数据挖掘材料》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、1、数据挖掘的应用领域目前擞据挖掘的应用领域包括以下八个方面:金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业而每个领域乂都有自己的应用领域和庇用背景。(1)金融。数据挖掘在金融领域的应用广泛,包括数据清理、金融市场分析预测、帐户分类、信用评估等。(2)医疗保健。医疗保健业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费崩。(3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。(4)零伟业。零伟业是最早运用数据挖掘技术的行业。目前,主要运用于销售预测、库存需求、零售点的选择、价格分析等。(5)制造业。制造业应用数据挖
2、掘技术进行零部件故障诊断、资源优化、生产过程分析等。(6)司法。数据挖掘也可应用于案件调杏、诈骗检测、犯罪行为分析等方面,这些都可以给司法工作带來巨大的利益。(刀工程和科学。在信息量极为庞大的天文、气象、生物技术等领域中,大量的实验和观察数据靠传统的数据分析工具难以应付,这种窘况推动数据挖掘技术在科学研究领域的应用发展,(8)保险业。对受险人员的分类将有助于确定适当的保险金额度。通过数据挖掘可以进行险种关联分析,分析购买了某种保险的人是否又同时购买另一种保险,也可预测什么样的顾客将会购买新险种。总Z在选择一种数据挖掘技术的吋候,应根据问题的特点来决定釆用哪种数据挖掘形式
3、比较合适。应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。2、相似性度量在文本相似性度量的应用(余弦相似性)这里文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中R能够代表该文档内容的基本语言单位,主要是Ftl词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,l<=k<=No例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示
4、其重要程度。即D=D(T1,W1;T2,W2;Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是Tk的权重,l<=k<=No在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为D(30,20,20,10)。在向量空间模型屮,两个文本D1和D2之间的内容相关度Sim(Dl,D2)常用向量之间夹角的余弦值表示,公式为:Sim(D,DJ=cos6==;魔)(士嘛)V上上J3、数据仓库的应用包括事实、维度以及应用(以电信为例)(1)分析主题的设计电信企业建立数据仓库,n的主要是为金业的市场经营
5、管理和营销决策提供数据分析支持,因此,产品、客户、竞争对手和营销活动即是我们数据仓库所要立足的分析对象,缺一不可。根据经验,各类分析对象的分析主题可以设计如卞:业务或产品的分析主题包括:各类业务或产品发展状况分析、发展变化趋势分析、影响因素分析以及发展预测等内容;客户分析主题包括:客户价值分析、客户流失分析、客户忠诚度分析、客户信用度分析等内容;竞争分析基于网间的话务信息来设计,包括:竞争対手用八发展情况、本金业用户使用竞争对手产品情况和竞争对手用户使用本企业产品悄况等内容。营销活动分析则根据营销活动的三大目的——获取客户、提高ARPU、客户保持以及营销活动的三个环节—
6、—营销策划、营销执行和营销评估來设计相应分析内容,一般包括:营销机会判断、预期效果评估、营销效果评估、营销方案调整等内容。(2)维度设计数据仓库中各主题的维度是为多维分析和定制报表而设计的,同时也要将报表数据分析过程屮所经常要用到的分组组别考虑进来。根据经验,数据仓库的维度可以分为以下六大类:时间维度和空间维度;业务维度:包括业务种类、流向、拨打方式、通达方式、速率等维度;客户维度:包括渠道属性、统计属性、入网时间、客户状态、城乡属性、服务等级、行业属性、计费类别等维度;用户终端维度:接入方式、终端类型等维度;营销活动维度:参加活动种类、参加活动时间等维度;运营商维度:
7、运营商种类等维度。(3)应用1)常规经营分析常规经营分析,顾名思义,就是按一定周期(旬、半月或月)在格式和对固定的分析模板(根据市场经营工作的盂要,通常半年或一年更新一次模板)基础上进行的经营分析。电信企业的常规经营分析包括各类业务(本地、长话、数据、增值业务等)的分析、各类客户(大客户、商业客户、公众客户和流动客户)的分析以及竞争的分析。2)专题分析专题分析是根据市场经营过程中出现的热点问题以及常规分析发现的界常情况而确定需要进一步深入进行的分析。电信企业比较常见的专题分析是各种营销活动效果分析,因为每次营销活动目的不一样,内容不一样,