欢迎来到天天文库
浏览记录
ID:57924290
大小:726.25 KB
页数:5页
时间:2020-04-14
《基于句法分析的代码摘要技术-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofComputerApplicationsISSN1oo1—90812015.O7.10计算机应用,2015,35(7):1999—2003C0DENJYIIDUhttp://www.joca.an文章编号:1001—9081(2015)07—1999—05doi:10.11772/j.issn.1001—9081.2015.07.1999基于句法分析的代码摘要技术王金水,薛醒思,翁伟(1.福建工程学院信息科学与工程学院,福州350108;2.厦门理工学院计算机与信息工程学院,福建厦门361024)(通信作者电子邮箱wa
2、ngjinshui@fjut.edu.cn)摘要:针对词袋模型忽略了词条之间语义关系和概念结构的问题,提出一种基于句法分析的代码摘要技术。首先,该技术利用词性标注识别出最有可能体现代码特性的关键词;然后,通过块分析修正在词性标注过程中可能引入的错误;其次,对标识出的关键词进行降噪,以减少文本噪声带来的不利影响;最后,从关键词中选取若干个权值最高的词以组成代码摘要。实验结果表明,与基于词频一逆文档频率(TF-IDF)和基于TF—IDF扩展的代码摘要技术对比,所提技术生成的代码摘要与参考答案的重叠率(ovedap)至少分别提高了9%和6%,
3、说明该技术能够生成更加准确的代码摘要。关键词:代码摘要;文本摘要;句法分析;自然语言处理;程序理解中图分类号:TP311.5文献标志码:ASourcecodesummarizationtechnologybasedonsyntacticanalysisWANGJinshui,XUEXingsi,WENGWei(1.CollegeofInformationScienceandEngineering,FujianUniversityofTechnology,FuzhouFujian350108,China;2.CollegeofComput
4、erandInformationEngineering,XiamenUniversityofTechnology,XiamenFujian361024,China)Abstract:Forovercomingthedrawbackofignoringthesemanticrelationshipbetweentermsandconceptstructureinthebagofwordsmodel,asourcecodesummarizationtechnologybasedonsyntacticanalysiswasproposed.F
5、irstly,thepart—of-speechtaggingwasutilizedtorecognizethekeywordsthatcharacterizedthecodefeaturemost.Secondly,thechunkpawingwasusedtorevisetheelTorsthatcouldbeintroducedintheprocessofpart-of-speechtagging.Thirdly,thenoisereductionforthosekeywordswascarriedouttodecreasethe
6、influenceoftextnoise.Finally,severalkeywordswithhighestweightswereselectedtOcomposethesummaries.ThroughthecomparisonwithTF—IDF(TermFrequency—InverseDocumentFrequency)一basedandextendedTF-IDF·basedsourcecodesummarizationtechnologiesintheexperiment,withrespecttotheoverlapco
7、efficientofthegoldenset.thesummariesobtainedbytheproposedtechnologyareimprovedbyatleast9%and6%respectively,whichilluminatesthattheproposedtechnologyisabletogeneratemoreprecisesourcecodesummaries.Keywords:sourcecodesummarization;textsummarization;syntacticanalysis;natui:a
8、llanguageprocessing;programcomprehension者虽快但可能导致误解,而后者则需要花费过多的时间。他0引言们还发现代码摘要作为一种折中方案,能够有效地帮助开发在大型软件系统的
此文档下载收益归作者所有