机器学习翻译.doc

机器学习翻译.doc

ID:59377219

大小:29.50 KB

页数:2页

时间:2020-09-04

机器学习翻译.doc_第1页
机器学习翻译.doc_第2页
资源描述:

《机器学习翻译.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、最近的几年,就数量和应用类型的种类来说像交互式(telnet,games,等等),大型数据业务(像ftp和P2P文件下载等)协作式(像邮件列表),实时应用(像VoIP,多媒体流等)等等,互联网在这些方面都经历了显著的增加。绝大多数的应用都要求互联网能够提供较好的QoS服务质量。现在,网络操作者正积极的寻找最重要的应用来提供不同的QoS服务能力,然后获得附加的商业利益。虽然目前,学术界和工业界已经提出了多类QoS机制(像diffserv[2,3]),有些机制还没有广泛的被应用,因为,还很难实现QoS保证下的应用。目前形势下的一个根本的障碍是,缺乏有效的分类方式,来对聚集的流量进行识别或

2、分类。传统的基于已知TCP或UDP端口号的识别方,随着网络应用使用动态端口号[1,4]的增加,已变得不再适用。为了强调基于端口号的分类方式的缺点,许多研究者列出了一个可靠深度包检测技术[3]来进行匹配分类。然而,当考虑到用户隐私或者大部分数据的加密问题时,深度包检测技术仍然会受到限制。因此,将来的分类方式必须是透明的,并且使用自由端口。目前,使用机器学习技术的流量分类方式正成为研究的热点[4]。这个方法基本上包括4个重要步骤:1)定义一些重要的特征例如包长度,包的到达时间间隔;2)构建一个基于机器学习的模型;3)训练一个模型,使其获得具有已知流量类的一组特征的机器学习分类器;4)在智

3、能分类系统中,利用上述分类器来识别或者对未知流量进行分类。目前,基于机器学习的分类方式已经受到很多研究者的注意并且已经有了许多相关工作[567].Williams等人[4]研究并且比较了4中机器学习算法的性能。结果证明,就计算性能和分类精度方面,对不同算法区别使用是非常有用的。他们对这四种特殊应用仍表示担忧。不同的是,我们集中于应用的种类而不是特殊的应用。原因如下两个:a)一个特殊的协议可能描述了一个不受这个协议绑定的应用的实现;b)在一个应用实现的特殊细节方面,有许多改变。因此,对不同的实现和应用的协议行为方面,存在着相当的变化。因此我们集中于流量的种类而不是特殊的应用。Lim等人

4、[7],利用32个不同的数据集对33种算法进行了深度的研究。他们发现,具有相似分类精度的算法具有不同的训练性能。Li和Canini[5]学习了基于网络的应用的分类算法的有效性。然后,四类应用识别方式,基于端口号的,深度包检测的,贝叶斯网络的和C4.5决策树被深入的学习。本文中,我们认为网络应用被分成几个特殊的种类,例如内部,服务,多媒体和QoS要求的大型数据。基于相同的数据源和所选择的特征,我们努力从已经存在的机器学习算法中,找到最好的,并且为将来的智能分类系统构建核心分类模型。A机器学习算法机器学习技术为基于独立统计特征像包长度和包到达时间间隔的流,提供了理想的可选择的分类方式。对

5、IP流量分类的情况,基于是否需要人工参与,机器学习算法可以分为2类:有监督的和不被监督的。下述简单的描述了几类机器学习算法的基本原理。朴素贝叶斯算法————是基于贝叶斯原理的分类算法[9].它计算并且分析了每个属性与样本类之间的关系。从计算结果来看,它能得多一个属性和这个类的条件概率,这也是朴素贝叶斯分类器的特征的先验知识。在分类过程中,分类器必须,通过将未知样本实例的实际值先验知识结合起来,将未知样本实例作为一个类来估测其概率。重要的是,分类器必须估测具有确定值的特征的概率。连续的特征具有大量甚至无穷多的值,因此,从频率分布上不能评测出概率。对这个问题,现在有两个解决方案:通过用合

6、适的连续概率分布或者通过离散技术。因为离散技术,将连续特征转换成离散的,并且不要钱有离散模型,因此离散方式是比较好的。决策树————是一个重要的并且有效的机器学习方式。它构建了一个基于树结构的分类模型[9,10].在决策树模型中,一个节点代表一个确定的特征,并且一个分支代表在这层上划分到这个实例样本的相关条件阈值。一个叶子表示一个类,它通过贯穿一系列的节点和分支而结束。如果样本贯穿于从根节点到特殊的叶子节点,则叶子节点的类就是这个样本的类。最近临界值法————在1968年,Cover和Hart提出了最近临界值法。在模式识别领域,它是一个基本的,简单的机器学习分类算法。假设有一个分类问

7、题,包括c1,c2,...,cm类,每个类有Ni个样本值,i=1,2,。。。m。我们能够设计并且需要Ci类的离散函数:下标i表示第Ci个类,J表示第Ci个类的第Ni个样本的第。另外,这个分类函数可以被写成如下等式那就是说,对未知的样本x,如果在样本与类中心之间有最小的欧几里得距离,这个类就属于Ci中心。因此这个决策方式被命名为最近邻值。实际上,最近邻值也被概括为k-NN算法,因为k-NN算法能够增强这个模型的健壮性。尤其在低维数分类时,k-NN是优先被选择

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。