欢迎来到天天文库
浏览记录
ID:31359555
大小:112.50 KB
页数:8页
时间:2019-01-09
《基于svm模型的恶意pdf文档检测方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于SVM模型的恶意PDF文档检测方法 摘要:该文针对现有的PDF文档检测方案存在准确度低、易混淆等问题提出一种基于SVM模型的智能检测方法,同时结合PDF文档格式分析技术,实现对恶意PDF文档的检测。论文先对PDF文档中JavaScript代码进行定位、提取、解码、去混淆化等处理,得到原始的JavaScript代码。然后对得到的原始JavaScript代码提取相应的特征向量,再利用SVM分类器进行静态检测。最后对检测出来的恶意PDF文档的JavaScript代码中恶意代码部分shellcode部分,利用libemu仿真工具实现行为模拟运行,得到详细的恶意行为报告。实
2、验表明该方法能有效检测出恶意的PDF文档,检测率有所提高,漏报率明显降低。 关键词:PDF文档;JavaScript代码;SVM 中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)24-0090-03 Abstract:InordertosolvetheproblemoflowaccuracyandeasytoconfoundinviewoftheexistingPDFdocumentdetectionscheme.Inthispaper,anintelligentdetectionmethodbasedonSVMmodelispropo
3、sed,whichiscombinedwiththePDFdocumentformatanalysistechnologytorealizethedetectionofmaliciousPDFdocuments.First,thepaperonthePDFdocumentJavaScriptcodeforpositioning,extracting,decoding,tobeconfused,and8otherprocessing,gettheoriginalJavaScriptcode.Thenextractthecorrespondingfeaturevectorf
4、romtheoriginalJavaScriptcode,andusetheSVMclassifierforstaticdetection.Finally,themaliciouscodeintheJavaScriptcodeofthedetectedmaliciousPDFcodepartoftheshellcode,usinglibemusimulationtooltoachievethebehaviorofthesimulationrun,getadetailedreportonthemaliciousbehavior.Experimentalresultssho
5、wthatthemethodcaneffectivelydetectthemaliciousPDFdocument,thedetectionratehasincreased,thefalsenegativeratedecreasedsignificantly. Keywords:PDFdocument;JavaScriptcode;SVM 1背景 2008年以前恶意代码对PDF[1]文档的利用技术还不是很成熟,相应的PDF文档漏洞还比较少,其主要的检测方式都还处在特征码扫描的阶段。随着PDF市场占有率的迅速提高,PDF漏洞也开始增多,因为Office漏洞越来越少,
6、而利用难度也越来越大,同时对恶意Office文档的检测技术已经非常成熟,于是PDF代替Office成为热门的恶意代码的有效载体。由于恶意代码对计算机的严重破坏性,检测和防止含有恶意代码的PDF文档已成为计算机安全领域的重要目标。 目前,针对PDF攻击方式大多数都与JavaScript相关,其检测模型主要有三类:基于特征码的静态检测模型、基于跟踪JavaScript行为的动态检测模型以及动静结合检测模型。2012年,Laskov和NedimSrndic提出了针对PDF文档第一个静态检测模型――8PJScan模型[2]。PJScan模型开创性地实现了从PDF文档中提取Ja
7、vaScript代码,并且真正实现了对恶意JavaScript代码的静态检测。但是该模型也有不足之处。首先,在提取JavaScript代码时没有对JavaScript代码进行去混淆化处理,这样导致提取到的特征向量被无用的信息所充斥,导致有用的特征向量的权值降低,影响检测率。其次,采用的one-classSVM分类算法允许一定比例的样本点超出范围,这样漏报率会提高。 针对以上缺点,本文提出一种基于SVM模型的检测方法,首先对提取到的JavaScript代码进行解码与去混淆化等处理,然后考虑样本规模影响运行速度,使用LibSVM分类器。此外
此文档下载收益归作者所有