网络有害信息的发现处理机制

网络有害信息的发现处理机制

ID:44870636

大小:27.51 KB

页数:4页

时间:2019-10-31

网络有害信息的发现处理机制_第1页
网络有害信息的发现处理机制_第2页
网络有害信息的发现处理机制_第3页
网络有害信息的发现处理机制_第4页
资源描述:

《网络有害信息的发现处理机制》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络有害信息的发现机制互联网的快速发展使得人们可以很方便的获得各种信息,与此同时,抵御互联网E的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。互联网上主要有两类有害信息:一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息;另一类是会影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测,被动防御的方式以网络内容过滤为主。1基于搜索引擎的有害信息主动监测技术采用主动扫描探测方法进行有害信息监控的系统

2、,首先要设计网络蜘蛛模块,实现对html、asp、php和jsp等网页的自动抓取,采用算法实现中文分词,开发信息索引模块,实现对网页的批量和增量索引,并且包含有害信息检索模块,实现有害信息监控及预警功能。搜索引擎,概括起来其组成大致分为四个部分:(1)搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理;(2)索引器。理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法,(3)检索器。用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出

3、的结果进行排序,并实现某种用户相关性反馈机制。(4)用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率和多方式地从搜索引擎中得到有效并且及时的信息。2内容过滤技术内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。现阶段的内容过滤技术主要分为基于网关和基于代理两种,二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理,如果网关和代理出现故障都会使网络不通。目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。基于网络层的实现,最大的挑

4、战有两个方面:首先,应用层分析技术必须全面,因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。其次,是实现兼容性,为实现与操作系统网络底层处理融合,需要充分了解操作系统网络实现机制,甚至替代部分功能,如何不影响操作系统的原有功能是相当困难的,1.3有害信息监测的核心技术有害信息监铡的核心技术包括分词技术、文本内容分类关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等1、分词技术对网页进行监测时需要进行特征项的提取。对于英文文本,一般足进行词汇的提取,由于词汇之间有天然的分隔符(空格),所以特征项的提取比较容易。中文信

5、息没有这个特点,所以必须采用中文分词技术,把没有词汇标示的中文句子,通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前二种分词方法中最快的。影响这种方法分词速度的因素主要有两点:词典的结构以及匹配算法。2、文本内容分类文本内容分类是一个广泛研究的课题,它的任务足把一文本内容分类是一个广泛研究的课题,它的任务足把一以通过文本分类的方法,把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM

6、)、决策树、Nearestneighbor、algorithm等。这些训练过程的基本思路都是从文章中抽取出一些特征关键词,根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。3关键字识别对关键字词进行过滤,最理想的方法就是先对字串的词法、句法和语义信息进行分析,再根据句义进行取舍。但计算机对语法、语义的自动分析目前仍处于研究阶段,还不成熟。通常的做法是先人工做成一个含有需要过滤词汇的词典,再根据该词典对用户所发的信息进行检查,即在信息中逐个查找词典中的每一个词。如果找到,有两种方法处理:一是终止查寻,认为该留言不能发表;二是继续查找,直到找

7、出文本中所有的关键词,然后计算该留言中关键词出现的频度,根据事先制定的规则,决定该信息能否通过发表。4变形关键字识别为了逃避过滤,不法分子会故意将留言中的关键字进行适当变形后进行提交。关键字常用的变形方法有同音字法、拼音法、字词颠倒法、字词间加其它字符串、以及多种变形混用法等。由于关键字特征被完全打乱,基本上找不到可以匹配的关键字。因此首先根据关键词识别的情况,就可以判断出属于此类问题。然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序,最后再进行过滤。5锚文本分析每一个超级链接都有一个描述文本即锚文本,这个文本反映了该网页与该链接所至网页的

8、某种关系,是互联的关键所在。通过分析这个描述文本,就可以得到网页之间重要的关系。导向词是一组关键词,它们会引

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。