欢迎来到天天文库
浏览记录
ID:59782450
大小:1.61 MB
页数:32页
时间:2020-11-24
《数据挖掘学习汇报.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2016/11/15秦华妮五邑大学数学与计算科学学院关于数据挖掘的学习汇报1.1课程名称和主讲教师(北京大数据研究院暑期学校)一、暑期学习介绍1.2专题:fundamentaltechniquesinBigData(李平)用数据的方法研究科学的最典型的例子:开普勒的关于行星运动的三大定律二、数据科学开普勒模式与牛顿模式2.2从数学的角度研究数据?数据数据建模整个数学模型相关性、排序、分类、聚类度量结构网络结构代数结构拓扑结构函数结构表格、点集、时间序列、图像、视频、文本等概率分布、随机过程、随机场、图模型等算法及实现(数据分
2、析的困难)降低算法的复杂度分布式计算物联网云计算数据挖掘2.3数据挖掘的综合技能数学的基础知识计算机科学的基础知识算法方面的基本知识数据的模型专业课程其它专业课程微积分计算机语言数值代数回归图像处理生物信息学线性代数数据库函数逼近分类时间序列分析天体信息学概率论数据结构优化理论聚类视频处理金融数据分析可视化技术蒙特卡洛方法参数估计自然语言处理网络算法文本处理计算几何语音识别推荐系统另外,随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论的基础知识。数学系不需要一门一门的开设,而是可以开设一些新的“高等数学”课程来覆盖这些
3、方面的内容2.4北大数据科学专业的探索2.5数据挖掘的10个重要算法(1)K均值(K-means)方法(2)支持向量机(SVM)方法(3)期望最大化(EM)算法(4)网页排序算法(PageRank)(5)贝叶斯方法(6)K近邻方法(7)AdaBoost(8)决策树算法(9)关联规则Apriori算法(10)协同过滤方法(CollaborativeFiltering)其他数据分析过程中常用的方法还有:降维(主成分分析、线性判别分析)、随机森林、Bagging方法、序列标注模型(隐马模型、条件随机场)、EM和高斯混合模型(200
4、6年IEEE国际挖掘会议选出)2.6数据挖掘的一般过程:数据清洗数据集成数据变换数据规约分类与预测聚类分析关联规则时序模型预测正确率模型解释性数据预处理数据模型训练模型性能评估三、案例案例1、智慧餐饮案例2、中医辅助决策案例3、商圈分析餐饮企业的信息化管理(传统部分):(1)客户关系管理(2)前厅管理系统(3)后厨管理系统(4)财务管理系统(5)物资管理系统餐饮企业的数据挖掘(创新部分):菜品智能推荐、客户价值分析、新店选点优化、热销/滞销菜品分析销量趋势预测案例1、智慧餐饮餐饮企业某一个月菜品的销售数据如下:(1)销售数据
5、的帕累托柱状图:分析可知:畅销菜:A1,A2,A3;滞销菜:A8,A9,A10;并且,A1~A7占菜品份额的70%,但是总盈利占月盈利额的85.0033%,可以增加投入。结果第一行解释为:客户同时点e与a的概率时30%,而点了e必点a的概率是100%.餐饮企业某段时间的点餐清单:(2)根据Apriori算法,可得如下规则:消费行为特征数据如下:(3)消费客户群的价值分析:客户群体1的R、F、M的概率密度函数图:客户群体1特点:R间隔相对较小,主要集中在0~30天;消费次数集中在10~25次,消费金额在500~2000元客户群
6、体2的R、F、M的概率密度函数图:客户群体2特点:R间隔相对较小,主要集中在0~30天;消费次数集中在0~12次,消费金额在0~1800元客户群体3的R、F、M的概率密度函数图:客户群体3特点:R间隔相对较大,主要集中在30~80天;消费次数集中在0~15次,消费金额在0~2000元客户价值分析如下:智慧营销策略:客户群体1:资源优先保持,差异化管理,提高这类客户的忠诚度与满意度,尽可能延长这类客户的高水平消费;客户群体2:加强促销手段,加强满意度,提高他们转向竞争对手的转移成本,逐渐使其成为忠诚客户;客户群体3:采取一定的
7、营销手段,重点联系,争取延长客户的生命周期。客户群体1:高消费、高价值人群;客户群体2:一般客户人群;客户群体3:价值较低的客户群体。采用TSNE数据降维将数据进行可视化其中红色代表客户群体1,绿色代表客户群体2,蓝色代表客户群体3案例2、中医辅助决策肝气郁结证型系数热毒蕴结证型系数冲任失调证型系数气血两虚证型系数脾胃虚弱证型系数肝肾阴虚证型系数0.1750.6820.1710.5350.4190.4470.30.7730.2930.3720.4420.132………………………………0.10.0910.2930.2790.1
8、630.395证型系数=各证型得分/各证型总分患者编号肝气郁结热毒蕴结冲任失调气血两虚脾胃虚弱肝肾阴虚TMT分期0017307231817H400212341216195H4…………………………………………930441212715H4模型构建:1.中医证型关联规则模型(1)设置参数:最小支
此文档下载收益归作者所有