基于k-means和svm的钓鱼网站识别的研究

基于k-means和svm的钓鱼网站识别的研究

ID:35057374

大小:6.60 MB

页数:61页

时间:2019-03-17

基于k-means和svm的钓鱼网站识别的研究_第1页
基于k-means和svm的钓鱼网站识别的研究_第2页
基于k-means和svm的钓鱼网站识别的研究_第3页
基于k-means和svm的钓鱼网站识别的研究_第4页
基于k-means和svm的钓鱼网站识别的研究_第5页
资源描述:

《基于k-means和svm的钓鱼网站识别的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、難m分苗文乂爭胃sou丽[SI扁IGNGU匿RSITY±学位论文P硕胃i義K-Mean论文题目;基于s和SVM的钓鱼网站瞭一垂Ir:国内图书分类号:TP311.1密级:公开国际图书分类号:004.4西南交通大学研究生学位论文基于K-Means和SVM的钓鱼网站识别的研究年级2013级姓名赵加林申请学位类别工学硕±专业计算化科学与巧乂指导老师马永强二零一六年五月二十屯日ClassifiedIndex:TP311.1U.D.C:004.4S

2、outhwestJiaotongUniversityMasterDegreeThesisRESEARCHONTHERECOGNITIONOFPHISHING-WEB別TESBASEDONKMEANSANDSVMGrade:2013Candidate:ZhaoJialinAcademicDegreeAliedfor:MasterDereeppgSecialit:ComuterSciencepypSuervisor:MaYonianpgqgM巧.27201

3、6,西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可tu将本论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1.保密□,在年解密后适用本授权书;2.不保密曰{使用本授权书。??(请在W上方框内打寸)学位论文作者签名、指导老师签名:泉游冯円期:円期:西南交通大学硕±学位论文主要工

4、作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:本人在完成论文的过程中详细调研了已有的研究成果,分析了已有的技术路线的优点及缺点,针对已有方法的缺陷并结合流行钓鱼网站的发展趋势,采取了继续保留URL黑名单匹配模块、、获取网页内容并建立新的聚类中屯,然后在判别信誉度前对网页进行分组一。在分好姐后获取网站特征,并按最终需要完成特征取值归化,然后使用支持向量机对其进行训练学习。在训练学习阶段,通过特征的增减来选取对应组别最优参数。生成对应的姐别特征参数后,在识别阶段使用对应组别的特征参数与目标。-M网站特征

5、进行运算,最终完成新方法的验证为降低人工工作量,因此在使用Keans算法过程中,进巧了自动选取聚类中也的探究,通过使用模巧退火算法来检验其对聚类结果的影响。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的巧究做出贡献的个人和集体,均已在文中作了明确说明。一切法律责任将由本人承担本人完全了解违反上述声明所引起的。学位论文作者签名日斯;。>.4I.西南交通大学硕±研究生学位论文第巧

6、摘要传统的单纯基于URL黑名单识别方式在今天海量的钓鱼网站面前显得力不从也,必须配合其他识别方式才能很好地工作。随后出现了许多新的识别方法,比如基于网页结构的识别方法,但是语言表达方式的多样性使得此种方法相当不可靠,几乎不可用。而基于图像识别的钓鱼网站识别方式衍生出多种识别方法,但是受制于图像识别本身的缺陷,其在识别时需要做到精确匹配,那么就要求钓鱼网站和被模仿的网站完全相似一且工作时速度很。因此对大部分假冒购物网站就不能做到很好的识别,慢。基于朴素贝叶斯的识别方法由于原理的限制使得王作时的效果不稳定,因此我们

7、在这里探究新的使用K-Means与SVM相K-Ms结合的算法,利用ean的优点,在识别网站之前对其进行一么就个分姐,如果待识别网站是容易被模仿的钓鱼网站类型,那使用对应组别的特征参数对其进行识别即可。同时结合传统的URL黑名单机制和网页灰度匹配模块,送样就可W避免将新建立的部分合法网站错误识别为钓鱼网站。而要一完成此种识别方式:,,总共完成了四部分的王作,即是流行样本库专口收集当季、典型流行钓鱼网站,于此同时获取网页有效内容并对其进行分词删除停用词等操作一系列典型特征并且分析总结出网站的;二是对获取到的网页进行分

8、组,并使用分析得到的特征建立样本模板;H是分组完毕后使用SVM分类算法对特征进行选取,获取有效的特征;四是在访问目标链接时实时收集目标网站的各个特征,然后使用SVM算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。