欢迎来到天天文库
浏览记录
ID:35065806
大小:2.57 MB
页数:62页
时间:2019-03-17
《基于文本的敏感信息的监测调度与去重研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于文本的敏感信息的监测调度与去重研究重庆大学硕士学位论文(专业学位)学生姓名:张德鑫指导教师:邓一贵高级工程师学位类别:工程硕士(计算机技术领域)重庆大学计算机学院二O一六年四月StudyonSchedulingDetectionandEliminatingDuplicationofText-basedSensitiveInformationAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementforProfessionalDegreeByDexinZhangSupervised
2、bySeniorEngineerYiguiDengSpecialty:ME(ComputerTechnologyField)CollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2016重庆大学硕士学位论文中文摘要摘要互联网发展给人们的生活带来了很大的便利,极大的推动了社会的进步。但与此同时一些不法分子利用网络传播信息的方便和迅速,在网络上传播一些包含色情、暴恐、反动等不良内容的敏感信息,给国家安全,社会的发展,人们的生活带来了极大的负面影响。从庞大的互联网中及时的检索到这些敏感信息并对其进行监
3、控成为网络安全领域的一个研究热点。为了及时的发现敏感信息,本文对敏感信息的监测调度策略和敏感网页去重进行了研究,主要的工作如下:①提出一种基于网页敏感度的敏感网页分类监测策略。本文通过对网页进行敏感关键词匹配,得到敏感关键词及其在网页中的位置,结合敏感词本身的敏感度及其在网页中位置的影响因子,给出了一种计算网页敏感度的算法。计算网页的敏感度后,根据敏感网页的敏感程度分类进行不同频率的监测,优化敏感网监测,提高发现敏感信息的及时性。实验表明该策略能够有效提高系统发现敏感信息的及时性以及重点敏感信息的比例。②提出了一种基于非敏感网页变化时间预测的敏感信息补充发现策略。本文根据
4、最近几次网页的变化次数和时间间隔,对网页的下次变化时间进行预测,对满足时间条件的网页进行爬取,提高爬取经常变化的网页的频率,降低爬取不发生变化的网页的频率,提高经常变动网页的敏感信息发现速度,提高其发现新敏感网页的总数。实验结果表明该策略能够较好对基于网页敏感度的敏感网页监测策略进行补充,进一步提高敏感信息的发现率。③提出了一种基于敏感信息摘要的去重策略。通过网页敏感关键词匹配,得到网页包含的敏感关键词位置,提取敏感词对应的敏感上下文,将网页的所有敏感词对应的敏感上下文合并生成网页的敏感信息摘要。通过网页敏感摘要信息的编辑距离计算出敏感摘要信息的相似度。然后比较敏感摘要信
5、息的相似度达到敏感网页的去重功能。实验表明该策略能够较好的提高去除重复网页的效果。④在本文提出的策略和方法的基础上对敏感信息监测与重复展示去除进行了设计与实现,对本校的部分网站进行了扫描和监测,测试了系统的有效性和稳定性。测试系统运行表明,本文提出的敏感信息发现及去重策略能够较为及时的发现敏感信息。关键词:敏感信息,分类监测,补充发现,网页去重,敏感摘要信息I重庆大学硕士学位论文英文摘要ABSTRACTThedevelopmentoftheInternethasbroughtpeoplegreatconvenienceofliving,thesocietygreatpro
6、gress.Atthesametime,somecriminalsuseInternettodisseminatethesensitiveinformationwhichcontainsundesirablecontents,suchaspornographic,violentterroristinformation,reactionaryinformationquicklyandconveniently.Thesecriminalshavebroughttremendousnegativeimpacttonationalsecurity,socialdevelopmen
7、tandpeople'sliving.IthasbecomehottopicinthefieldofnetworksecuritytoaccessandmonitorsensitiveinformationintimefromthehugeInternet.Inthisthesis,theschedulingstrategyofdetectingsensitiveinformationandthemethodofremovingduplicatesensitivepagesareresearched.Thedetailedco
此文档下载收益归作者所有