软件源码上的数据挖掘应用综述

软件源码上的数据挖掘应用综述

ID:38278240

大小:634.45 KB

页数:6页

时间:2019-05-28

软件源码上的数据挖掘应用综述_第1页
软件源码上的数据挖掘应用综述_第2页
软件源码上的数据挖掘应用综述_第3页
软件源码上的数据挖掘应用综述_第4页
软件源码上的数据挖掘应用综述_第5页
资源描述:

《软件源码上的数据挖掘应用综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第29卷第9期2009年9月计算机应用JournalofComputerApplicationsV01.29No.9Sep.2009文章编号:1D01—9081(2009)09-2494—05软件源码上的数据挖掘应用综述于秀梅,梁彬,陈红(中国人民大学信息学院,北京100872)(1i∞gb@mc.edu.cn)摘要:数据挖掘技术可以从大量的数据中发现某些有价值的知识。而将软件源码作为一种特殊的数据,在其上应用数据挖掘技术进行源码层次上的信息挖掘,已成为一个新颖而重要的课题。将对软件源码上的数据挖掘技术从各领域的应用、数据挖掘方法以及当前发展水平等主要方面展开介绍,并详细

2、剖析当前此领域的制约因素,提出未来此领域的发展方向。关键词:软件源码;数据挖掘;信息挖掘;源码挖掘中图分类号:TP311.13文献标志码:ASurveyonapplicationsofsoftwaresourcecodeminingYUXiu.mei。LIANGBin.CHENHong(SchoolofInformation,RenminUn/ters/tyofCh/na,Be/ring100872,Ch/na)Abstract:DataminingtechnologycBnfindflomevaluableknowledgefromhrgeamountsofdata.Theso

3、ftwarefloul-cecode嬲aspecialkindofdataisbeingminedbydataminingtechnologyincodelevel.whichisanewandimportanttopic.Theauthorsintroduceditsapplicationsin80mcfields,thedataminingtechnology,andthecurrentlevelofdevelopment,andthenanalyzedcurrentrestrictionofthefield.Finally,severaldirectionsonsoftwa

4、resoul陀:ecodeminingapplicationwereconcluded.Keywords:softwaresourcecode;datamining;informationmining;sourcecodemining0引言当今各种软件系统都是由不同数量规模的程序代码组成,而软件系统中的源码作为一种特殊形式且广泛存在的数据,其隐含的信息量是巨大的。数据挖掘作为一种能从大量数据中发现某些潜在知识的技术,已经被应用在挖掘软件源码上。以编程缺陷检测为例,在大型软件系统中,由于程序规模巨大且缺陷隐蔽性较强,依靠人力很难发现,而引入数据挖掘技术可以自动地检测程序中的某些编程

5、缺陷,杜绝安全问题的发生。此技术在其他领域的应用也处在密切研究中,其应用和发展前景非常乐观。软件源码的挖掘技术已经取得了长足的进展,其应用领域主要包括如下。1)软件安全。借助数据挖掘技术发现程序的编程缺陷和安全漏洞,以及提取软件程序中的安全敏感操作以实施跟踪检查等。2)软件分析。通过挖掘程序元素的使用规则以及常见特征,以加深程序员对程序内部结构及特征的理解。3)软件开发支持。挖掘代码库以产生特定的编程模式,或自动程序代码生成器等信息以协助程序员进行软件开发。4)软件识别。通过挖掘程序依赖图等特征来鉴别软件系统,防止剽窃等现象发生。本文力求将此课题在各领域中的应用、数据挖掘方法以及

6、当前发展水平等方面进行详细阐述和比较分析,并重点剖析当前此领域发展的制约因素,据此提出未来此领域的发展方向,以期更好地促进此领域的发展。1软件源码挖掘的各领域应用本节从基本流程以及各领域应用情况方面详细阐述软件源码上的数据挖掘技术的应用。1.1基本流程软件源码上的数据挖掘技术的应用一般需要经过以下几个主要步骤,如图1所示。图1基本流程1)程序代码的预处理。由于程序源码是由特定的程序设计语言组成,需要预处理成为适当的形式。预处理的主要工作是将程序以不同单位(如标记、基本块、语句、函数、类等)进行划分,提取出感兴趣的程序元素,并且以适当的表示形式(如数字、字符串、状态机、树形结构等)

7、存储到数据库中,以待进一步挖掘。数据挖掘。在预处理产生的数据库上,结合用户输入的线索信息或“零知识”运用数据挖掘技术提收稿日期:2009—04—24;修回日期:2009—06—07。基金项目:国家自然科学基金资助项目(60873213);国家863计划项目(2007AA012414);北京市自然科学基金资助项目(4082018)。作者简介:于秀梅(1985一),女,吉林松原人,硕士研究生,主要研究方向:数据挖掘、信息安全;梁彬(1973一),男,云南昆明人,副教授,博士,主要研究

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。