资源描述:
《《数据挖掘》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘在智能信息系统中的应用研究吴渝@重庆邮电学院计算机学院2004.12目录数据挖掘简介数据挖掘研究平台技术海量数据挖掘应用研究电子邮件智能分析网络入侵检测研究展望2数据挖掘简介实例应用工具3什么是数据挖掘通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构海量数据数据挖掘知识库4实例全球最大的零售商沃尔玛(Walmart):星期四、啤酒与尿布销售额上涨了30%英国电信通过直邮的方式向客户推荐新产品使
2、直回应率提高了100%汇丰银行分类客户群,对每种产品找出最有价值的客户营销费用减少了30%5应用举例电信:客户流失百货公司/超市:购物篮分析保险:交叉销售,流失信用卡:欺诈探测电子商务:网站日志分析,个性化服务税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,病症原因分析6应用比例7商业工具:SPSSClementine8丰富的数据挖掘算法PredictionNeuralnet,C5.0ClassificationNeuralnet,C5.0SegmentationKohonen
3、,Kmeans,C5.0AssociationApriori,GRI,WebgraphSequenceCaprI,NeuralNet,Regression9价格?SPSSClementine7.2中文版校园方案租赁优惠买断优惠(台币)教授个人研究使用(1人)225000395000(10万RMB)教学专用版(10人)335000595000教学专用版(25人)449000795000(20万RMB)1人民币=3.908台币10数据挖掘研究回顾技术11数据挖掘历史回顾1989IJCAIWorksh
4、oponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1
5、995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,
6、(IEEE)ICDM,DaWaK,SPIE-DM,etc.12相关技术DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization13数据挖掘的不同视角DatabasestobeminedRelational,transactional,object-relational,active,spatial,time-series,text,multi-m
7、edia,heterogeneous,legacy,WWW,etc.KnowledgetobeminedCharacterization,discrimination,association,classification,clustering,trend,deviationandoutlieranalysis,etc.TechniquesutilizedDatabase-oriented,datawarehouse(OLAP),machinelearning,statistics,visuali
8、zation,neuralnetwork,etc.ApplicationsadaptedRetail,telecommunication,banking,fraudanalysis,DNAmining,stockmarketanalysis,Webmining,Webloganalysis,etc.14预言模型文化(PM)输出的是预言模型知识发现文化(KD)输出的是规则数据挖掘文化共同点两种文化输入的都是学习集(learningsets)目的都是尽可能多的自动化数据挖掘过程数据挖掘过程并不能完全