面向web的敏感信息的筛查系统研究与实现

面向web的敏感信息的筛查系统研究与实现

ID:35101951

大小:4.31 MB

页数:54页

时间:2019-03-17

面向web的敏感信息的筛查系统研究与实现_第1页
面向web的敏感信息的筛查系统研究与实现_第2页
面向web的敏感信息的筛查系统研究与实现_第3页
面向web的敏感信息的筛查系统研究与实现_第4页
面向web的敏感信息的筛查系统研究与实现_第5页
资源描述:

《面向web的敏感信息的筛查系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP311单位代码:10183研究生学号研:201353H632密级:公开吉林大学硕士学位论文面向Web的敏感信息的筛查系统研究与实现TheresearchandrealizationofscreeningsystemorientingtothesensitivemessageaboutWeb作者姓名:袁宇类别:工程硕士领域(方向):软件工程指导教师:李雄飞教授培养单位:软件学院2016年12月面向Web的敏感信息的筛查系统研究与实现Theresearchandrealizationofscreeni

2、ngsystemorientingtothesensitivemessageaboutWeb作者姓名:袁宇专业名称:软件工程指导教师:李雄飞教授学位类别:在职工程硕士答辩日期:2016年11月20日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否贝!],应承担侵权的法律责任。吉林大学博±(或硕i)学位论文原创性声明本人郑重声

3、明:所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容夕h,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期;2016年>I日/月摘要面向Web的敏感信息的筛查系统研究与实现在日常生活中,我们已经不能脱离对Web的使用,Web上的信息也与我们产生了千丝万缕的联系,而通过这种信息,也可以为我们生活、工作提

4、供一定帮助。但由于信息量过大,如何提取准确的、所需要的信息成为我们研究的主要目标。目前已经存在可应用的爬虫技术,可以爬取我们所需要的结果,已经为我单位的工作提供方便,但是为了呈现的信息更加精准,减少人工的判断和参与,通过将目前具备搜索爬取功能的网络爬虫与全文索引相结合,设计并构建一个完整的系统。首先使用主题爬虫策略对Web上的信息进行爬取,而主题词汇则是按照工作需要进行获取,通过分析和过滤,从互联网上首先获取筛查第一遍的文件集,由于这些文件集需要在本地供查阅,所以将这些不便于阅读的文件转换成适合的文件格式,保

5、存到本地后,再由lucene进行二次筛查,将更精确的结果按照一定顺序展示给工作人员,以供工作人员做出合理的决策以及制定相关工作计划。本文使用了nutch和lucene作为构成本系统的主要部分,以java语言进行设计和编程,通过便于操作的页面,网页被爬取后保存到本地,再以主题词的形式进行二次筛查,也将敏感词在文中出现的相关内容进行了截取,以供工作人员进行判断。这为敏感信息筛查工作带来的极大的方便,促进了敏感信息筛查人员更准确的分析,从而对网络情报进行准确的把握和判断。关键词:Web信息采集,搜索引擎,网络爬取,

6、nutch,luceneIAbstractTheresearchandrealizationofscreeningsystemorientingtothesensitivemessageaboutWebInthedailylife,Internethasbeenwidelyusedinourlife.Weuseittoconnectwithourfriends,playgames,writesomethingandsoon.WealreadycannotlivewithoutInternet.Alotofin

7、formationisstoringintheInternet.Wecouldcollecttheseinformationanduseitforourlife.Thiskindofusageispromotingourworkandlife.Butthedisadvantageforitisthatthevolumeissolarge.Ifwewanttogetusefulmessageinit,weneedatechnologytofetchtheusefulthingsforus.Thisisourai

8、mforresearch.Recently,thetechnologyhasalreadygottheskillforfetching.Butwewanttoimprovethefunctionthatitcanmoreprecise.Sointhistext,wecombinetheWebspiderwithindexingtodotwicescreeninganddesignasystemtoo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。