2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)

2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)

ID:6044963

大小:51.50 KB

页数:10页

时间:2018-01-01

2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)_第1页
2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)_第2页
2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)_第3页
2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)_第4页
2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)_第5页
资源描述:

《2012哈工大继续教育计算机_网络与软件工程专业课作业(中高级)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2012专业课作业(中、高级职称):19、网络爬虫是如何工作的?答:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通过网页的链接地址来寻找网页从一个或若干初始网页的URL开始(通常是网站首页),遍历web空间,读取网页内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到网页中的其他链接地址,对HTML文件进行解析,取出页面中的子链接,并加入

2、到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站的所有页面都抓取完,满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定分析、过滤,并建立索引,以便之后查询和检索。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,完全不依赖用户干预。这一过程所得到的分析结果还可以能对以后抓取过程给出反馈和指导。20、与单模式匹配相比,多模式匹配的优点是什么?与淡漠是匹配相比,多模式匹配的优势在于一趟遍历可以对多个模式进行匹配,对于单模式匹配算法来说,如果要匹配多个模式,那么有几个

3、模式就要进行几趟遍历,这样效率太低。多模式匹配大大提高多模式匹配的效率。同时,多模式匹配算法也适用于单模式情况。21、简单介绍垃圾邮件系统的处理过程。1)收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。2)主要考察邮件的四个特征:域、发件人、关键字、附件。通过提取邮件上述四个特征。参考四个主要特征,可以采取垃圾邮件过滤技术,大致可分为内容过滤、接入过滤和行为过滤这三类技术。内容过滤就是对邮件内容进行内容匹配,其中关键字技术用某些限定条件对邮件主题进行审查过滤。摘取关键词进行分析过滤,或是统计垃圾邮件的相关特征,输入反垃圾邮件引擎,使升级后的反

4、垃圾邮件软件能够拒收这些邮件。为了及时获得有效特征,还可以设立专门的“诱饵邮箱”,只要有垃圾邮件进入自己的网站,这个诱饵邮箱就会自动截获,供专门技术人员参考。常见的规则方法为关键词过滤、决策树过滤等。近年来,研究学者将贝叶斯力理论、合作理论引入内容过滤领域,为垃圾邮件过滤技术注入了新的动力。接入过滤是通过对邮件信头部分进行检查,可以提前发现或阻断非法信息,且不侵犯个人隐私。可以分为打补丁的方法和修改协议的方法两类。前者针对现有邮件协议缺点提出补救措施,以增强邮件系统的安全性;后者多为企业界提出的方案,其实现需要改变电子邮件系统的工作方式。行为过滤依据合法邮

5、件是在社会关系驱动下,以交换信息为目的、双向通信的结果;而垃圾邮件是在发送者利益驱动下,一大范围扩散为目的、单向通信的产物。垃圾邮件和合法邮件本质上的不同必然导致其行为的显著差异,因此两者从行为特征上看是可以区分的。从2003年起,学术界开始从流量特征入手,对邮件协议行为进行深入研究。研究可分为基于统计的方法和基于拓扑的方法两种。3)通过垃圾邮件过滤技术对邮件进行识别。识别后正常邮件直接发送到目的地。ISP服务商或客户端对垃圾邮件通过截断等方式阻止垃圾邮件的传播。现阶段垃圾邮件过滤技术,经历一下几个发展阶段:第一代反垃圾邮件技术。很难明显的区分在大多数MT

6、A上已经具有的反垃圾邮件功能和第一代反垃圾邮件产品功能,因为这些已经存在的反垃圾邮件功能加上新开发的功能在很大程度上帮助解决了垃圾邮件问题。标题和信头测试,和简单的DNS测试一样,主要是由于需要抵制垃圾邮件来推动的。第二代反垃圾邮件技术。即时黑名单和电子签名,不是为了反垃圾邮件而把现有的MTA技术简单的重复或者延伸,它们的存在完全为了制止垃圾邮件和对先前的技术进行改良。第三代反垃圾邮件技术。用鉴别垃圾邮件(签名)和即时黑名单(RBLs)的方法来抵御垃圾邮件注定失败。垃圾邮件发送者能够轻易的绕过即时黑名单,最好的电子签名技术也无法达到百分之百的正确率。互联网

7、和软件行业大约于2002年出现了一项全新的技术。第四代反垃圾邮件技术。垃圾邮件的存在有部分原因是由于在SMTP创造之初,只是用于学校,政府和军队,因为是一个封闭的系统,所以不存在非法使用和电子邮件的滥用。1990年起,互联网广泛的应用于商业,但是之前的技术隐患仍然存在。垃圾邮件和反垃圾邮件活动必将长期存在,经过了十几年的发展,新兴的反垃圾邮件技术也层出不穷。但无论哪一种技术,都无法完全应对多变的垃圾邮件。因此,第四代反垃圾邮件技术偏向于采用一个全面包含最有效垃圾邮件阻断技术的整体解决方案。22、如何理解信息安全管理的内涵?信息安全管理体系(ISMS)是一个

8、系统化、过程化的管理体系,体系的建立不可能一蹴而就,需要全面、系统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。