基于主成分分析和运行特征的软件聚类分析

基于主成分分析和运行特征的软件聚类分析

ID:9418328

大小:48.50 KB

页数:6页

时间:2018-04-30

基于主成分分析和运行特征的软件聚类分析_第1页
基于主成分分析和运行特征的软件聚类分析_第2页
基于主成分分析和运行特征的软件聚类分析_第3页
基于主成分分析和运行特征的软件聚类分析_第4页
基于主成分分析和运行特征的软件聚类分析_第5页
资源描述:

《基于主成分分析和运行特征的软件聚类分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于主成分分析和运行特征的软件聚类分析(1.北京师范大学信息网络中心,北京100875;2.中国气象局国家卫星气象中心,北京100081)随着教育领域的应用软件种类的不断增加,如何为软件提供合理的硬件资源和提高软件的运行效率受到越来越多的关注。木文提出了一套基于软件运行特征的软件分型方法,该方法利用软件运行时资源消耗情况来刻画软件运行特征。首先引用主成分分析方法对软件运行特征数据进行分析;然后采用聚类算法对教育领域软件进行分型:结合主成分分析结果解释各类软件综合运行特征的意义,并将其作为优化软件硬件资源分配和提高软件运行效率的依据。关键词:聚类算

2、法;主成分分析;特征分析TP391A1673-8454(2017)06-0078-04一、引言随着教育领域系统种类的快速增加和高性能计算软件的需求的不断增长,教育领域软件和系统所依赖的软硬件资源的运行情况成为人们关注的重点工作。尤其是高校在化学、物理、天文、上星等领域高性能计算的方面的实时、高效方面提出了很大的要求,在无法监控软件A部运行的情况下,如何能够通过软件运行特征分析软件的运行情况,成为研究的热点。木文采用的数据是北京师范大学用于教育和科研高性能计算等方面的软件或系统的运行特征数据,首先,对采集原始软件运行特征数据进行特征提取和加工,使其

3、更好的表达软件的特征;其次,使用主成分分析方法对采集的运行特征进行分析,计算主成分提取其特征,并分析其实际意义;然后使用加工后的软件特征数据进行K-means算法进行[4_6]聚类分析;最后结合主成分分析结果,描述每类软件的特点。二、软件运行特征提取与处理1.软件和硬件环境概述本文的研究对象是用于教育软件和科研高性能计算方而的软件和硬件资源的运行特征,软件资源包括188个教育软件;硬件资源包括3台浪潮小型机和50台普通服务器,详细的配置见表1。2.软件运行特征数据采集软件运行特征数据采集范围包含188个应用软件,软件运行数据的采集方式:是通过定期

4、调用limix命令和接门。软件运行特征数据采集类型包括CPU级、系统级、进程级和作业级数据。3.运行特征数据刻画软件特征分析还需将软件的运行特征尽量完整的表达,并将每个软件的运行特征通过一个向量来表达。刻画软件运行特征需要从两个方面来考虑:(1)软件运行的时间序列特征;(2)消除平台间差异和系统本身的资源消耗。4.特征数据归一化原始数据中每个运行特征的单位都不一样,数据之间的大小差异很人,为了减少特征数据之间的差异,首先对数据进行归一化处理。木文选用Min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值

5、,将A的一个原始值x通过Min-max标准化映射成在区间[0,1]中的值x’,其公式为:x’=(x-minA)/(maxA-minA)(1)三、特征分析法原理主成分分析方法[1](PrincipalComponentAnalysis,PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析的结果好坏,主要取决于指标之间的相关性,如果相关性很强则主成分分析的结果会很好,反之则较差[2]。特征分析法的计算方法与步骤如下。(1)根据原始数据矩阵计算相关矩阵原始数据矩阵每行表示1个软件

6、的运行特征,每列表示软件1个运行特征的值,通过SPSS软件分析结果见表2。该矩阵反映了任意两个软件的运行特征之间的相关性。(2)通过总方差提出主成分根据文献[2],当P(累加%)彡0.8〜0.9时,就可以选用前面4-6个主分量代替原来的14个运行特征,并且保留了原来14个运行特征所包含的主要信息,这前4-6个主分量称为公共影响因子。(3)计算软件主体成分通过表3和表4分析发现,可以用1、2、3和4四个主成分代表原始矩阵的主要因素。在运行过程中,表达式中的变量己经不是原始变量,而是标准化变量,以第一主成分为例,可被其他标准化变量表示为:二0.732

7、*Zxl+0.547*Zx2+*+0.254*Zxl4(2)通过分析表4中的四个主成分系数,选取相关性系数较人的运行特征作为分析的因素。表5中可以发现第一类主成分中主要与运行时长和磁盘读写资源相关;第二类主成分主要跟网络资源和CPI有关;第三类主成分主要与计算资源相关;第四类主成分与内存和缓存有关。通过表4和表5,提取新的主成分公式如下:Fl=0.732*Zxl+0.722*Zx7+0.736*Zx8+0.652*Zx9+0.766*Zxl0+0.755*Zxl1(3)F2=0.715*Zx6+0.681*Zxl2+0.63*Zxl3+0.775

8、*Zxl4(4)F3=0.779*Zx4+0.774*Zx5(5)F4=0.798*Zx2+0.706*Zx3(6)四、聚?分析结果本文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。