决策树算法实例

决策树算法实例

ID:39074221

大小:89.63 KB

页数:6页

时间:2019-06-24

决策树算法实例_第1页
决策树算法实例_第2页
决策树算法实例_第3页
决策树算法实例_第4页
决策树算法实例_第5页
资源描述:

《决策树算法实例》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、机器学习课程报告基于ID3算法的决策树对网络购物满意度的预测摘要:近年来,随着信息技术的不断发展壮大,尤其是大数据挖掘的理论和方法发展迅速,已经在许多实际生产生活中得到应用。大数据挖掘的理论和方法对数据本身没有进行任何的假设,只是通过对数据本身的学习从而建立相应的模型。本文将基于决策树的ID3算法,对某购物网站网购服务评价的数据进行建模,将对买家网购满意度进行预测,以便于卖家更好地完善网购流程。关键词:大数据挖掘;决策树;ID3算法。0引言:伴随着信息科技技术的迅速发展,网络购物越来越受到人们的关注。这种足不出户的购物方式深受

2、人们的喜爱,逐渐成为一种潮流。在人们享受着方便、价格便宜、不受时间和地点限制带来的便捷的同时,网络购物的劣势也显现出来。买家通常要面临售后服务、卖家信用、网上支付风险等诸多问题。此时,买家满意度便成了衡量卖家服务质量的标准。建立买家网络购物满意度预测模型,有利于规范网络购物过程中不健全的地方,使网络购物的环境得到净化。决策树算法利用的是一种归纳式的学习算法,目的在于从数据源中推理和归纳出树形结构的决策树知识表现形式。而ID3算法作为决策树学习算法的主要内容,在处理实际问题上有着举足轻重的作用。ID3算法将信息熵这一概念与决策树

3、算法相结合。ID3算法的核心是对决策树中各节点上的属性进行选择,将信息增益看作分裂属性的评判标准,先计算所有属性的信息增益,然后由信息增益大小来确定测试属性,将信息增益最大的属性作为测试属性来对决策树进行划分。ID3算法对当前节点中的属性进行评估,即选择最大信息增益的属性作为测试属性,节点再按照测试属性的属性取值情况进行节点划分,对于划分的节点递归地使用测试属性选取方法进行划分,进行到在全部的子集中只有一种类别的数据的时候停止。本文将采用ID3算法对网络购物中买家满意度进行建模,从而达到预测网络购物中买家满意度的功能。1模型建

4、立:1.1数据准备:为了更加方便地描述,本文采用评价网络购物中的满意度预测的实例,来详细地运用和解决机器学习中的决策树算法。具体如下:当经行了网络购物,在收到网购货物后要对本次网络购物的服务进行评价,满意或不满意。目标变量设定成二分类变量:满意(设置为0)或者不满意(设置为1)。相应的自变量由网购过程中产生的数据组成,比如产品质量、卖家服务态度、收货时长等。这里,给出一份某网站对网络购物满意度的调查情况,得到的数据如表1所示:表1:网络购物售后评价机器学习课程报告买家编号产品质量卖家服务态度收货时长(天)满意度01良好良好1.

5、5002良好良好2.3003良好一般1.2004良好一般2.2105一般良好1.6006一般良好2.7107一般一般1.4108一般一般2.81由表1可以看出,产品质量、卖家服务态度都为离散型变量,收货时长为连续型变量。满意度中1为不满意、0为满意。1.2数据处理及模型建立:将所得数据分别在数据分裂属性的选择以及数据的树剪枝这两方面进行处理,用基于ID3算法的决策树对网络购物的满意度进行预测:  所谓分裂属性的选择,即应该选择产品质量、卖家服务态度两个离散变量和收货时长这个连续变量中的哪一个变量作为决策树的第一个分支。ID3算

6、法的核心方法是以信息增益的大小来依次选择分裂树叉,即:1.2.1ID3算法的信息增益:  根据香农定理可知,最大信息增益的变量将会被定为ID3算法中树叉的分支,拿网络购物满意度预测模型为例,此模型有三个变量,即产品质量、卖家服务态度和收货时长。分别计算产品质量、卖家服务态度和收货时长的信息增益,将三个变量当中信息增益最大的变量看作第一阶树叉。且信息增益的计算方法是:变量的信息增益=原始信息的需求-按照某个变量划分时的信息增益。假设以产品质量为自变量,产品质量的信息增益=原始信息的需求—按照产品质量划分所需要的信息需求。其中原始

7、的信息需求的计算方法为:(1)其中D为目标变量,实例中为满意度。m=2,即满意和不满意两种情况。则分别表示网购不满意的概率以及网购满意的概率。表格中一共有8条数据,满意4条,不满意4条。其概率都为1/2。(满意度)为只基于满意和不满意划分所需要的信息需求,即:(2)以产品质量划分所需要的信息需求为:(3)机器学习课程报告(3)式中,A表示在满意度中按自变量A划分所需的信息,在本文中表示按产品质量进行划分所需的信息。V表示在满意度中,按产品质量进行划分,即产品质量分别为良好、一般进行划分。因此,将产品质量划分为2个子集,{D1、

8、D2},V=2。即产品质量为良好的划分中,样本有1个不满意和3个满意,用D1表示。产品质量为一般的划分中,样本有3个不满意和1个满意,用D2表示。表示如下:(4)由(4)可得,产品质量的信息增益表示为:产品质量的信息增益==1-0.19=0.81同理可得,卖家服务态度的信息增

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。