欢迎来到天天文库
浏览记录
ID:18164872
大小:3.29 MB
页数:74页
时间:2018-09-14
《钓鱼网页联合特征与智能检测算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级公开分类号TP181mXIANTECHNOLOGICALUNIVERSITY硕士学位论文题目:钓鱼网页联合特征与智能检测算法研究与实现:.作者贾雪鹏指导教师:容晓峰教授申请学位学科:计算机应用技术2018年05月02日密级公开分类号TP181硕士学位论文题目:钓鱼网页联合特征与智能检测算法研究与实现作者:贾雪鹏指导教师容晓峰教授申请学位学科(工程领域)计算机应用技术2018年05月02日钓鱼网页联合特征与智能检测算法研究与实现学科:计算机应用
2、技术研究生签字:指导教师签字:摘要钓鱼网页欺诈是现代网络犯罪的主要手段。近几年,钓鱼网页攻击发生的次数显著上升,并在2017年创下历史新高。钓鱼网页攻击可以让诈骗方用最低的成本进行网页攻击部署,使其在短时间内进行大规模传播。为了保护互联网用户的信息安全免遭泄露,研究确定更加准确和有效的基于机器学习技术的自动网页检测方法来抵抗这种快节奏的网络攻击就显得至关重要。本文主要研究使用多来源的特征训练出能够有效检测钓鱼网页的分类模型。其中,分别从URL链接、网页内容元素和第三方网页相关信息这三个来源派生特征,对其进行特征提取、特
3、征选择和特征重要度计算,得到基础特征。为了使分类模型表达出对网页更加丰富的细粒度的描述,引入联合特征率R(04、检测效果优异,并且随着R的提升,分类模型对钓鱼网页的检测能力持续增强。本文还提出了一种改进的半监督学习自训练方法。该方法基于分治思想,将训练集中大规模未标记数据平均拆分为多个子数据集,依次在这些子数据集上对分类模型进行递归训练,得到最终分类模型。本文通过对比了多种分类模型在改进自训练方法中的分类效果和运行时间,与传统自训练方法相比,改进的自训练方法能够有效地检测钓鱼网页,并在保证分类效果与传统自训练方法持平的基础上,方法运行时间相比于传统自训练平均降低50%以上,实现了更优的方法时效性,为缺少大规模可靠标记数据和在线检5、测等场景提供了一种新的研究思路。关键词:钓鱼网页检测;机器学习;联合特征;最优分类模型;自训练方法ResearchandImplementationonJointFeaturesandIntelligentDetectionAlgorithmsofPhishingWebpagesDiscipline:ComputerApplicationTechnologyStudentSignature:SupervisorSignature:AbstractPhishingWebpagefraudisamajortrickofcr6、iminalinthemodernInternetworld.Inrecentyears,thenumberofwebpageattackshasbeenrisingsignificantly,andhitarecordhighin2017.Attackerscandeployawebpageattackatthelowestcost,andallowingittospreadonalargescaleinashortperiodoftime.Inordertoprotecttheinformationsecurity7、ofInternetusers,itiscrucialtostudymoreaccurateandrapidautomaticwebpagedetectionmethodstoresistthisfast-pacedcyberattack.Inthisdissertation,theclassificationofphishingwebpageswasinvestigatedusingfeaturesderivedfromthreesources:URL,webcontentelementsaswellasrelati8、veinformations,andfeatureextraction,featureselectionandfeatureimportancecalculationareperformedonthesefeatures.Inordertomaketheclassificationmodelsexpressricherfine-g
4、检测效果优异,并且随着R的提升,分类模型对钓鱼网页的检测能力持续增强。本文还提出了一种改进的半监督学习自训练方法。该方法基于分治思想,将训练集中大规模未标记数据平均拆分为多个子数据集,依次在这些子数据集上对分类模型进行递归训练,得到最终分类模型。本文通过对比了多种分类模型在改进自训练方法中的分类效果和运行时间,与传统自训练方法相比,改进的自训练方法能够有效地检测钓鱼网页,并在保证分类效果与传统自训练方法持平的基础上,方法运行时间相比于传统自训练平均降低50%以上,实现了更优的方法时效性,为缺少大规模可靠标记数据和在线检
5、测等场景提供了一种新的研究思路。关键词:钓鱼网页检测;机器学习;联合特征;最优分类模型;自训练方法ResearchandImplementationonJointFeaturesandIntelligentDetectionAlgorithmsofPhishingWebpagesDiscipline:ComputerApplicationTechnologyStudentSignature:SupervisorSignature:AbstractPhishingWebpagefraudisamajortrickofcr
6、iminalinthemodernInternetworld.Inrecentyears,thenumberofwebpageattackshasbeenrisingsignificantly,andhitarecordhighin2017.Attackerscandeployawebpageattackatthelowestcost,andallowingittospreadonalargescaleinashortperiodoftime.Inordertoprotecttheinformationsecurity
7、ofInternetusers,itiscrucialtostudymoreaccurateandrapidautomaticwebpagedetectionmethodstoresistthisfast-pacedcyberattack.Inthisdissertation,theclassificationofphishingwebpageswasinvestigatedusingfeaturesderivedfromthreesources:URL,webcontentelementsaswellasrelati
8、veinformations,andfeatureextraction,featureselectionandfeatureimportancecalculationareperformedonthesefeatures.Inordertomaketheclassificationmodelsexpressricherfine-g
此文档下载收益归作者所有