欢迎来到天天文库
浏览记录
ID:6092419
大小:541.20 KB
页数:8页
时间:2018-01-02
《中国科学院软件研究所》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、中国科学院软件研究所杰出青年人才发展专项计划年度进展报告书(2012年度)姓名杨叶课题名称经验软件工程方法研究资助金额160万课题起止时间2009.9-2013.9资助类别所在部门基础软件中心研究工作主要进展和阶段性成果(含论文、研究生培养等)本项目2012年度的工作围绕以软件成本估算和缺陷预测为代表的经验软件工程研究领域的预测模型和方法,对典型预测模型的性能优化问题、缺失数据处理问题等进行了深入研究,并结合基于开源社区和基于众包等典型软件开发场景进行了分析和预测模型及方法研究。主要工作成果包括以下几个部分:缺失数据处理技术开源社区演化网
2、络分析研究开源社区缺陷解决人推荐研究软件定制化的可变性分析的决策支持众包环境下的软件开发任务定价1.缺失数据处理技术缺失数据中实际上存在两种缺失机制:结构性缺失和非结构性缺失。前者指在数据收集的过程中,软件项目本来就不具备某种或某类特征;后者指软件项目存在数据收集过程中给定的项目特征,但实际数据测量不准确或者没有被收集上来。我们以ISBSG和CSBSG为研究对象,分析了软件工作量数据中的缺失机制。首先,我们假定数据中的缺失服从某种缺失机制,然后利用在此种机制下的缺失数据处理方法对缺失数据进行修正并进行软件项目工作量的预测。当缺失数据被假
3、定为结构性缺失条件下,最大间距分类(Max-MarginClassification)被用来处理缺失的工作量数据并更根据历史数据预测软件工作量。图1显示了以上缺失数据处理方法在ISBSG和CSBSG数据集上的软件工作量预测性能对比。实验结果表明,无论对于ISBSG数据集还是CSBSG数据集,建立在非结构性数据缺失假设基础上的缺失数据处理方法比建立在结构性数据缺失假设基础上的软件工作量预测1性能要好。而且,在非结构性数据缺失处理方法内,在ISBSG上,MINI方法要比CMI方法要好,而在CSBSG上,其结论恰好相反。我们将其解释为CSBSG数据
4、集上不同工作量类别的数据集之间的方差较小,而ISBSG上的数据则方差较大。图1结构性和非结构性缺失数据处理方法在不同的特征子集规模(上)和不同缺失水平(下)条件下在ISBSG数据集(左)和CSBSG数据集(右)上进行工作量类别预测的性能对比。2.开源社区演化网络分析研究本项研究以一个真实的开源项目社区ArgoUML社区(http://argouml.tigris.org/)为研究案例,研究了开源社区中核心开发人员识别、开发人员在不同软件模块级别的交流分布和开发人员随开源软件版本演化而发生的开发人员变动趋势。我们收集了从2000-07-10到2
5、010-03-06期间11个ArgoUML版本的开发人员邮件列表交流和源代码提交记录。在此期间980名独立开发人员总共讨论了6087个话题,其中的34名具有代码提交权限的开发人员总共提交了15921个代码变更记录。表1列出了ArgoUML项目11个版本的历史邮件列表和代码提交信息。利用邮件列表中开发人员之间的交流记录,我们基于CliqueNetwork形式建立了在不同2版本期间的开发人员邮件交流网络(包括有权重网和无权重网)。图2示例性的显示了从0.10版本向0.12版本演化过程中,依据开发人员的邮件交流记录构建的无权重的社会网络。依据这个网
6、络,利用节点度(Degree)、介数(Betweenness)、PageRank和HITSRank节点中心性度量指标,我们进行了项目开发核心开发人员识别研究。图2.从0.10版本向0.12版本演化过程中的开发人员邮件交流网络。表1:ArgoUML11个版本上的不同类型开发人员的演化情况。表2:ArgoUML项目核心开发人员的重复比例。3结果表明,各种节点中心性度量指标在核心开发人员识别上的准确率和召回率的差距不大。各个历史版本中的大约60%的核心开发人员能被社会网络分析指标准备识别出来。具体而言,节点度在有权网络上的识别效果最好,达到了64%
7、以上。同一模块内的开发人员之间的交流频繁,而不同模块内的开发人员之间的交流则较少。并且,如果一个开发人员参与的开发工作越多,那么他(她)与其他开发人员之间的交流也越多。邮件列表中的一般开发人员之间的在相邻版本上的加入和离开项目的数量在100的级别上,而在拥有源代码提交权限的开发人员中,他们离开和加入项目的数量一般在10个一下。3.开源社区缺陷解决人推荐研究我们从Bugzilla缺陷跟踪系统中提取出EclipseJDT项目和MozillaFirefox项目的缺陷数据,包括缺陷报告的ID号、标题、描述以及参与其讨论和修复的开发人员列表。对于Ecl
8、ipseJDT项目,选取2001/10/10至2009/01/31期间的缺陷报告数据做为训练集,2009/02/01至2010/06/16期间的缺陷报告数据做为测试
此文档下载收益归作者所有