开放网络环境下不良信息的识别

开放网络环境下不良信息的识别

ID:22459093

大小:28.50 KB

页数:7页

时间:2018-10-29

开放网络环境下不良信息的识别_第1页
开放网络环境下不良信息的识别_第2页
开放网络环境下不良信息的识别_第3页
开放网络环境下不良信息的识别_第4页
开放网络环境下不良信息的识别_第5页
资源描述:

《开放网络环境下不良信息的识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、开放网络环境下不良信息的识别  摘要开放的互联网可以为人们提供智能旅游、在线学习、电子商务、电子政务、金融证券等渠道,有效地实现了信息的传输和共享,被越来越多的人所关注和使用。但是,互联网在为人们提供便捷信息传输的同时,也潜在带来了许多的危害,比如淫秽色情信息、病毒木马信息、暴力反动信息等,这些信息将会影响青少年的健康成长,也会破坏社会的良好秩序,甚至一些言论会危害到国家政府的安全,因此开放网络环境下快速的、准确的识别和定位不良信息已经成为网络舆情监控管理部门、科研院所的研究热点。本文详细地分析了开放网络环

2、境下不良信息的识别研究现状,归纳了常用的不良信息识别算法,包括谱聚类算法、神经网路算法、信息论算法和K均值算法,同时针对K均值算法进行深入研究,提出了一个模糊K均值算法,以便能够更加准确的识别不良信息,准确的获取信息内容。  【关键词】互联网不良信息数据挖掘K均值  1引言  随着移动通信、光纤通信等技术的快速发展,促进人们进入到“互联网+”时代,也使得人们的言论、行为更加开发和自由。互联网是一个拥有数亿网民的精神、文化、工作和生活家园,也是人们信息传输、分享的重要途径,方便快速的互联网平台可以帮助人们实现

3、各类信息的获取。因此,开放环境下,网络具有覆盖范围广、用户数量多、使用开销低和发展前景好等各种优点,其在为人们提供优良信息的同时,互联网也逐渐成为不法分子散布反动、色情、暴力等不良信息的主要途径,并且这些不良信息的传播趋势呈现出智能化、隐蔽化、迅速化等新型特点。据《国家互联网管理办公室》统计发布信息显示,互联网上的色情网站高达数百万个,并且网站的数量每天都在增长,诱发了更多的社会问题,对于自控能力相对薄弱的青少年来讲,这些不良信息的危害非常严重,导致花季、雨季少年不能够生活在一个健康的社会环境中。360网络

4、安全管理公司统计报告显示,垃圾邮件是一种毫无价值信息的文件,其在严重干扰用户对互联网信息的应用需求同时还携带了较多木马和病毒,这些攻击信息可以获取人们的隐私信息,许多公司、个人为遏制垃圾邮件的传播付出了非常高的代价,每年都需要花费数亿元人民币。因此,网络上传播的不良信息即可以危害人们的健康成长,同时也可以破坏社会的稳定秩序,甚至危害??家的安全,构建一个实时性、稳定性、可靠性较强的不良信息识别算法或系统具有重要的作用和意义,也逐渐成为政府机关或科研机构的研究热点。  不良信息识别是指利用先进的模式识别、机器

5、学习技术构建一个学习器,同时利用学习器针对数据内容进行分析,可以寻找隐藏的不良信息内容。不良信息识别操作模型主要有两类,一种是描述型模型,另外一种是预测型。描述型的不良信息识别模型可以针对网络上的数据进行相关性分析,这样就可以识别不良信息相关内容;预测模型可以利用已经获取的不良信息特征进行预测和推断,从而可以获取不良信息。  2开放网络环境下不良信息识别研究现状  目前,经过多年的研究和识别,不良信息识别算法包括基于模板的不良信息识别方法、基于统计的不良信息识别方法和基于分块的不良信息识别方法。  2.1基

6、于模板的网络不良信息识别方法  网络不良信息识别过程中,为了提高识别实时性和迅速性,可以构建一个模板,比如路径抽取模板Xpath,能够获取网络信息资源。采用模板的网络不良信息识别算法最为耗费精力的就是制作和分析模板,这个过程非常的繁琐和复杂,一旦网络信息的结构发生了相关的变化,因此就需要重新构建一个网络不良信息识别模板,需要花费较多的时间和成本,因此构建一个高效处理的网络不良信息识别模板已经吸引了很多的人的研究。李强等人开发了一个强大的工具WIEN(WrapperInductionEnviroment),可

7、以增强网络不良信息识别效率,该工具适用范围比较广泛,能够处理所有的HTML网络文档数据,并且还可以处理HLRT网络文档数据,准确区分包含很多起止分隔符、左右分隔符,提取相关的不良信息实体。王亚飞等人开发了一个功能强大的网络不良信息识别工具TSIMMIS,其能够自动生成一个网络不良信息识别规则,这个工具在使用过程中需要专业的人员进行操作和维护,因此如果应用背景较少,不能准确的的设计不良信息处理规则。徐根茂等人采用强大的C#程序开发可视化的网络不良信息识别系统运行界面,可以更加完善和方便的设计程序开发规则,能够

8、最终形成一个网络不良信息识别模板。  2.2基于统计的不良信息识别方法  基于统计的不良信息识别方法可以使用统计学、概率论等数学知识针对网络文档中出现的词语进行统计和分析,生成一个网络用语密度矩阵,以便能够将网络中积极信息、不良信息的词语进行划分,获取不良信息的内容。基于统计的不良信息识别方法可以有效的解决模板方法存在的问题,其不需要构建一个识别模板,仅仅需要构建一个不良信息词库即可,具有更强的自适应性和可操作性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。