分类技术概论及前沿问题

分类技术概论及前沿问题

ID:5449925

大小:2.05 MB

页数:32页

时间:2017-11-12

分类技术概论及前沿问题_第1页
分类技术概论及前沿问题_第2页
分类技术概论及前沿问题_第3页
分类技术概论及前沿问题_第4页
分类技术概论及前沿问题_第5页
资源描述:

《分类技术概论及前沿问题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类技术概论及前沿问题2021/6/131知识管理与数据分析实验室主要内容2021/6/13知识管理与数据分析实验室2数据分类技术概况1数据分类方法介绍2各种方法比较评述3分类技术前沿问题—人脸识别4数据分类的简含义我们都曾经有这样的经验,在人流攒动的电影院门口等待相约而至的朋友,通过找寻与识别,能够在人群中一下子发现熟悉的脸,其实这个过程就是一个数据分类的过程。相较于要发现的知识完全未知的无监督学习,数据分类是一种典型的有监督的机器学习方法,目的是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。2021/6/13知识管理与数据分析实验室32021/6/13

2、知识管理与数据分析实验室4用刚才我们提到的寻找朋友的过程举例,首先从自己熟知的朋友身上提取特点,比如脸型、身材、穿着等,这就形成了一个简单的分类模型。然后在电影院门前对每一个发现的陌生人进行判断,“是朋友”或者“不是朋友”,从而对新数据进行了预测。√xx分类技术的应用2021/6/13知识管理与数据分析实验室5信用卡审批科学研究银行医疗商业图形处理有效性分析故障检测医疗诊断目标市场定位工业●●●数据分类技术数据分类的过程2021/6/13知识管理与数据分析实验室6一个完整的数据分类过程一般包括模型构造、模型测试和模型应用三个步骤,具体来说,我们可以将数据分成两个数据集,

3、分别是训练集和测试集,用于模型构造和模型测试。整体的步骤说明如下。2021/6/13知识管理与数据分析实验室71模型构造在这个阶段,分析样本的类别和其具备的一些特征之间的依赖关系,并将这种关系用特定的模型表示出来。2模型测试测试的过程是对测试数据依次进行检测,根据模型确定样本的类别,与实际类别相比较,相同即是结果正确。3模型应用这个过程与模型测试基本相同,只是输入的数据是未知的,例如,在电影院门口观察陌生人,在其中寻找朋友。数据分类的过程详解2021/6/13知识管理与数据分析实验室8数据分类方法介绍2数据分类方法介绍1各种方法评述3分类技术前沿问题—人脸识别4数据分类

4、方法介绍现在我们使用的分类方法中比较常用的有决策树方法、神经网络方法、遗传算法、支持向量机,除此以外还有粗糙集理论以及贝叶斯分类等方法,上图详细列出了现阶段正在使用的各种分类方法,下面将对重要方法进行介绍。2021/6/13知识管理与数据分析实验室92021/6/13知识管理与数据分析实验室10决策树分类法所谓“决策树”,顾名思义,它具有树状结构,根据层次的不同,节点分为根节点、内部节点和叶节点三类,每个节点对应一个样本集,根节点作为“树根”,对应的是整个样本集,内部节点类似于树干枝杈,对应样本子集,叶节点就相当于树叶了,对应一个类标志。根节点和内部节点含有一个对于样本

5、属性的测试,根据测试的结果将样本集划分为两个或者多个子集,每个子集形成一个分支,由叶节点内的类标志来标识,就像树不断分散的枝杈茎叶一样,如右图所示。我们用制造厂商经常使用会员分类案例来进一步说明决策树的使用方法,在分类模型中,以年龄作为属性,根节点对应的是整个样本集即所有参与某自行车厂商调查的顾客,内部节点对应样本子集,比如年龄在67岁以上的顾客群体。根节点和内部节点含有一个对于样本属性的测试,即对年龄加以限制的测试。使用1000个会员事例训练模型后得到的决策树分类如下:2021/6/13知识管理与数据分析实验室11图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜

6、色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。这样一来,便可以通过条件得出在哪个年龄段的哪些地区的人,最容易购买自行车,至此建立了模型。随后可以从新导入一批已知数据进行模型测试,完成这个步骤,如果模型可用,便将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大,随后自行车厂商就可以有选择性的投递广告册。神经网络分类法人类的大脑有近1000亿个神经元和十倍于此的神经胶质细胞。神经网络是一种具有若干连续处理结点的并行计算系统,

7、它建立了一种数学模型,试图去模仿人类的大脑。神经网络将每一个连接看作一个处理单元,这些处理单元结点通常称作神经元,来表明脑神经之间的关系。2021/6/13知识管理与数据分析实验室122021/6/13知识管理与数据分析实验室13神经元采用一系列数学函数,通过汇总和转换对数据进行处理,一个神经元的功能有限,但若干个神经元连接起来形成系统后,就可以创建一个智能模型,神经元可以有许多种不同的方式互连,为了更精确地拟合需要对建立模型的数据反复训练若干次,甚至上千次。下图是神经网络算法模拟人类大脑神经元的详细示例。2021/6/13知识管理与数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。