谢邦昌访谈 数据挖掘

谢邦昌访谈 数据挖掘

ID:44960897

大小:35.00 KB

页数:6页

时间:2019-11-06

谢邦昌访谈 数据挖掘_第1页
谢邦昌访谈 数据挖掘_第2页
谢邦昌访谈 数据挖掘_第3页
谢邦昌访谈 数据挖掘_第4页
谢邦昌访谈 数据挖掘_第5页
资源描述:

《谢邦昌访谈 数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、专家访谈:谈谈数据挖掘技术  谢邦昌简介:  辅仁大学统计信息学系教授,华通人商用信息有限公司高级顾问,中国人民大学应用统计科学研究中心学术委员会委员,中国人民大学统计学系数据挖掘中心客座教授,上海财经大学统计学系客座教授,厦门大学计划统计学系客座教授,中央财经大学、首都经贸大学、天津财经大学及西南财经大学客座教授。  他是数据挖掘界领军人物及世界知名统计学家。发表过近三百篇关于统计和数据挖掘的论文。出版了近五十余本相关专着。  1.记者:您好!目前国内DataMining应用发展迅速,您觉得DataMining在各领域的应用情形为何?  谢邦昌:DataMining在

2、各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效营销界、制造业、财务金融保险、通讯业以及医疗服务等。  于销售资料中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效营销强调的分众概念与数据库营销方式在导入DataMining的技术后,使直效营销的发展性更为强大,例如利用DataMining分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而

3、达到差异化营销的目的;制造业对DataMining的需求多运用在质量控管方面,由制造过程中找出影响产品质量最重要的因素,以期提高作业流程的效率。  近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(FraudDetection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,DataMining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用DataMining来分析市场动向,并预测个别公司的营运以及股价走向。DataMining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或

4、是流程控制的效率。  2.记者:DataMining包含哪些主要功能?  谢邦昌:DataMining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。  Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组数据分为"可能会响应"或是"可能不会响应"两类)。Classification常被用来处理如前所述之邮寄对象筛选的问题

5、。我们会用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个ClassificationModel,再利用这个Model来对数据库的其它数据或是新的数据作分类预测。  Clustering用在将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification不同的是,在分析前并不知道会以何种方式

6、或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。  Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用LogisticRegression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。  Time-SeriesForecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-SeriesFor

7、ecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关连性)。  Association是要找出在某一事件或是数据中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。)  SequenceDiscovery与Association关系很密切,所不同的是SequenceDiscovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。