基于统计学习的性能预测方法

基于统计学习的性能预测方法

ID:13274077

大小:584.51 KB

页数:17页

时间:2018-07-21

基于统计学习的性能预测方法_第1页
基于统计学习的性能预测方法_第2页
基于统计学习的性能预测方法_第3页
基于统计学习的性能预测方法_第4页
基于统计学习的性能预测方法_第5页
资源描述:

《基于统计学习的性能预测方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第1章基于统计学习的性能预测方法1.1概述随着云计算、数据中心的建设,复杂分布式多层架构的性能预测问题,得到了众多研究机构的关注。Elba[2]是佐治亚理工学院和惠普实验室合作的一个项目,它通过监视系统当前状态,一旦发现瓶颈便自动对系统进行调优。而我们的方法是利用系统正常情况下的性能来预测该系统所能承受的最大负载,一旦发现系统无法满足某一特定负载便建议调节相应的软件配置或增加相应的硬件设备。与[3][4]中的预测模型相比,本方法还有一个显著的特点:即可以通过比较不同次幂的线性拟合曲线来选择最佳回归方程。本章主要研究分布式多层架构的性能预测方法,基于当前系统环境

2、下收集到的性能指标参数,采用统计学习的方法来有效准确地预测系统在不同负载压力下的性能。统计学习在很多计算机科学领域中扮演着重要角色,论文使用统计学习中的线性回归方法作为主要的预测方法是由于它的简单性和实用性。本预测方法主要有三个优点:一,高精确度。通过大量实验我们发现至少80%的验证数据的相对误差在20%以内。二,实用性。与其它预测模型相比,本模型对训练数据量的大小并不敏感。换句话说,只需要少量的训练数据就可以达到较高的精确度。三,通用性。本预测模型不仅仅可以应用于实验研究,还可以应用于许多真实的IT系统和产品。本章的剩余部分组织如下:4.2节描述基于统计学习

3、的大规模复杂系统瓶颈检测方法;4.3节对4.2节提出的瓶颈检测方法进行实验评估;4.4节分析预测模型精度的敏感度;4.5节对本章进行小结。1.1性能预测方法描述在本节中,我们提出了一种基于统计学习线性回归的预测方法,该方法能够准确、简单、有效地预测大规模分布式复杂系统的性能。4.2.1对实验的输入输出做了明确定义;4.2.2首先简要介绍移动均值法和中值法,然后重点介绍统计学习中的回归预测法。1.1.1问题定义在描述我们的预测方法之前,需要先作一些说明:1)训练集数据用于拟合回归模型,验证集数据用于评估模型的准确性。然而,模型的准确性并不依赖于训练集数据的大小,

4、这将会在4.4中详细说明。2)需要记录大量的性能指标数据作为训练集合验证集,因此,一个用于自动化收集和管理性能数据的工具显得尤为重要。3)需要做大量的实验来验证模型的准确性,而且每次实验我们都需要增大负载压力。4)理论上,回归方程的次幂可以为任意的正整数,但在本模型中,它的最大次幂为5,因为使用过高次幂的回归方程会增加模型的复杂度,从而降低模型的实用性。表4-1概述了本实验的输入和输出。输入分为两部分,分别是集群大小和负载压力;输出为应用服务器的性能指标数据,包括系统级数据(CPU、内存和网络带宽的使用率)和应用级数据(SIPS和服务调用成功率)。在本模型中,

5、数据可分为两部分:一部分称为训练集数据,是用以拟合回归曲线并求回归方程参数;另一部分称为验证集数据,是用以求相对误差并评估模型的精确度。对模型精确度的评估需要做许多次不同负载压力的实验,因此,在实验中需要不断加大模拟业务客户端(EBs)的并发数,并以固定时间间隔(一般为1s)来记录应用服务器中的性能指标。表11性能预测实验的输入与输出输入集群大小(从1至9,每次增加1)负载压力(EBs)(从10至1000,每次增加10)输出系统级数据CPU平均使用率内存平均使用率网络带宽平均使用率应用级数据SIPS(每秒Web服务交互数)Web服务调用成功率1.1.1回归预

6、测算法回归分析是处理变量间的相关关系的一种有效工具。它不仅可以提供变量间相关关系的数学表达式(通常称为经验公式),而且利用概率统计知识,对经验公式及有关问题进行分析、判断,以确定经验公式的有效性.并利用所得公式.由一个或几个变量的值去预测或控制另一个变量的取值.同时还可以知道这种预测和控制达到的精确度在本方法中我们使用如下符号:-是每次实验中记录的数据数;-是第i个记录点性能指标数据,;-是性能指标实际平均值;-是性能指标平均值的预测量;-是并发数(EBs),即客户端负载的大小;-是线性回归方程的次幂;-分别是观测集、训练集和验证集的数据个数,其中。因为需要记

7、录大量的性能指标数据作为训练集和验证集,所以一个用于自动化收集和管理性能数据的工具显得尤为重要。在本实验中,我们使用nmon[5]工具来收集每个记录点的性能指标。性能指标的平均使用率可计算如下:…………………………………(4.1)以EBs的大小X作为回归方程的输入向量,输出即为该性能指标的预测量。线性回归方程如下:………………(4.2)方程(4.2)中的即代表线性回归方程的次幂,它可以是从1到5的正整数,我们将在4.4中分析比较这5种不同取值对预测模型精确度的影响和是回归方程的系数,我们采用非负的最小二乘回归(Non-negativeLSQ)方法来求出和。假设

8、nmon总共记录了个观测数据,我们从中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。