最新数据挖掘--自行车讲课讲稿讲课讲稿.doc

最新数据挖掘--自行车讲课讲稿讲课讲稿.doc

ID:60768518

大小:760.50 KB

页数:12页

时间:2020-12-16

最新数据挖掘--自行车讲课讲稿讲课讲稿.doc_第1页
最新数据挖掘--自行车讲课讲稿讲课讲稿.doc_第2页
最新数据挖掘--自行车讲课讲稿讲课讲稿.doc_第3页
最新数据挖掘--自行车讲课讲稿讲课讲稿.doc_第4页
最新数据挖掘--自行车讲课讲稿讲课讲稿.doc_第5页
资源描述:

《最新数据挖掘--自行车讲课讲稿讲课讲稿.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、自行车购买预测随着社会的发展,越来越多的人趋于购买私家车,但又由于油价越来越贵,交通越来越拥挤。更多的人倾向于购买既省钱又环保的自行车。本报告针对给出的案例,运用EXCEL中的数据挖掘工具分析影响人们购买自行车的各个因素:如有没有私家车,有没有家庭,收入,所受的教育等。一.预测的目的同过对自行车购买的预测,可以有效的解决自行车生产商对于其市场的定位,适合的人群,以及客户的购买能力有一个很好地把握。可以帮助其更好的出售产品,如同“啤酒与尿布”一样,可以提高企业的收益率。其次,通过预测,可以改善企业的产业结构,使其更加符合市场的需求。提高企业的竞争力。对于从企业——顾客这整条价值链

2、的提升有很大的帮助。二.问题的分解1.对于案例中的数据中影响人们购买自行车的各个因素单个进行分析,找出最大的影响因素。2.对于各个因素建立一个数据模型,预测实例购买自行车的可能性。3.对所建立的模型进行测试。4.用所建立的模型进行预测。三.关键技术及工具聚类分析决策树模型EXCEL的数据挖掘工具神经网络模型准确性图表分类矩阵MicrosoftSQL2008,MicrosoftEXCEL2007,SQL2005数据挖掘外接程序四.数据挖掘与预测随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来

3、的数据处理技术。其主要任务是关联分析、分类、预测时序模式和偏差分析等。数据初步处理:将数据分为两个部分一为分析数据(定型数据与测试数据),二为预测数据1.神经网络模型由于所要分析的各个因素存在大量的非线性的关系,对于案例中最后的预测数据我们可能从中找到合适的线性关系来得出结构,而运用神经网络模型可以解决这类非线性的关系。它的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(LearningMethod)得以优化,所以人工神经网络也是数学统计学方法的一种实际应用。神经网络可以有MP模型和ANN模型。其中ANN

4、模型又分为前馈型网络和反馈型网络。首先我们利用数据挖掘工具中的建模工具——分类。将已经统计好的数据运用随机抽样的方法分为定型数据和测试数据。定性数据用来建立数据模型,测试数据用来测试模型的准确性。(定型数据492条,测试数据212条)(1)定型数据定型数据是指用来建立模型的数据,这些数据是从原始数据中随机抽选出来的。我们运用建模工具——神经网络,利用定型数据以PurchasedBike为预测值,其他为输入值得到我们所需要的模型。可以看出决策变量PurchasedBike有两个属性值,其给预测带来了很大的方便,上图我们可以看出其的概率分布是从高到低的,这种效果有助于我们找出其中的

5、关键因素,摒弃其中对预测结果影响小的因素。其次神经网络模型也具体给出了在定型数据中具体的买或不买自行车的具体数字方面我们统计。(2)测试数据。测试数据是指用来测试模型可行度与可信度的数据,这些数据是从原始数据中随机抽选出来的。我们利用已经得到的定型数据的模型,用测试数据运用两种工具进行准确性校验。1.准确性图表如下图:可以看出红色的线代表定型数据,蓝色的线代表随机的推测。该图表的X轴表示用于比较预测的测试数据集的百分比。给图表的Y轴表示预测为指定状态的值的百分比。有此图可以看出此数据模型提升115.69%。2.分类矩阵如下如图:可以看出原定型数据的模型准确率63.81%,错误率

6、36.19%,可以看出所建立的模型的准确度超过50%。同时上图也具体给出了买车,与不买车的正确的概率。由于以上的定型数据和测试数据都是从统计的数据中随机抽取的,所以其所建立的模型的客观性及准确性无法有较大的保证。因此我又对以上的步骤重复几次。(3)对未知数据的预测。根据以上得出的比较准确的定型数据的模型,我们可以利用关联分析模型或决策树模型中得到的主要因素作为输入值,通过添加多个因素对未知数据进行预测。这样预测的结果比较准确,可信度高。(4)单个因素对于是否够买自行车的影响运用神经网络得出的模型通过改变因素如Cars可以看出随着拥有的私家车的数量的提高,人们越来越不趋于购买自行

7、车。其次,看以看出一个家庭拥有的孩子数越多越不会购买自行车,收入越高也越趋于不买自行车如下图:左边为Cars为1,右边为Cars为4对于Income来说,与我们平常的认识不同,收入越高人们越趋向于购买自行车。对于Children来说,一个家庭拥有的孩子越多,越不趋于购买自行车。而在现实生活中往往不是单个因素起决定性作用的,往往是多个因素的组合,这就加大了预测的难度,运用神经网络的模型也可以实现多个因素的预测。总结:对于神经网络模型来说,适用于决策变量的取值只有两个或三个的对象,对于更多的取值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。