基于自然语言处理的互联网垃圾信息过滤研究综述

基于自然语言处理的互联网垃圾信息过滤研究综述

ID:12181685

大小:63.82 KB

页数:11页

时间:2018-07-16

基于自然语言处理的互联网垃圾信息过滤研究综述_第1页
基于自然语言处理的互联网垃圾信息过滤研究综述_第2页
基于自然语言处理的互联网垃圾信息过滤研究综述_第3页
基于自然语言处理的互联网垃圾信息过滤研究综述_第4页
基于自然语言处理的互联网垃圾信息过滤研究综述_第5页
资源描述:

《基于自然语言处理的互联网垃圾信息过滤研究综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于自然语言处理的互联网垃圾信息过滤研究综述自然语言处理大作业基于自然语言处理的互联网垃圾信息过滤研究综述ASurveyofSpamFilteringTechnologyontheInternetBasedonNaturalLanguageProcessing学院(系):计算机科学与技术学院专业:计算机科学与技术学生姓名:学号:完成日期:任课教师:天津大学TianjinUniversity8基于自然语言处理的互联网垃圾信息过滤研究综述基于自然语言处理的互联网垃圾信息过滤研究综述摘要互联网技术的发展,

2、极大促进了社交媒体在人类日常生活中的重要性,并成为广大用户获取信息的重要渠道。然而,在互联网上的社交媒体中发布信息的简便性也从另一方面促使了垃圾信息充斥于整个互联网中,为用户对有效信息的获取造成了很大的不便和干扰。因此,净化互联网中社交媒体信息、对互联网垃圾信息过滤一直是近些年来自然语言处理的重要的研究课题,本文将对目前主要的从自然语言处理角度对该方向的研究进行报告。过滤算法其实是一种分类算法,即将垃圾文本与正常文本分类。在各种互联网垃圾信息过滤技术中,主流的方法技术有基于规则和模式匹配的过滤方法和

3、基于统计机器学习的过滤方法。其中的机器学习算法又包含朴素贝叶斯算法、逻辑回归算法(LR)、支持向量机算法(SVM)以及Memory-Based方法。其中Bayes是传统的分类模型,它的分类原理是首先计算先验概率,然后再利用贝叶斯公式计算出其后验概率,最后选择最大后验概率的类别作为该对象的类。LR和SVM是目前公认效果最好的模型。LR通过逻辑回归公式计算该对象的分值,来判断其类别。SVM通过构建分类超平面来进行分类。目前研究领域中的分类大都是利用此判别算法实现的,并取得了非常好的结果。关键词:垃圾信息

4、过滤;自然语言处理;朴素贝叶斯算法;逻辑回归算法;支持向量机算法8基于自然语言处理的互联网垃圾信息过滤研究综述目录摘要I1.互联网垃圾信息过滤概述:12.自然语言中垃圾信息过滤方法13.机器学习算法33.1朴素贝叶斯过滤算法33.2逻辑回归过滤算法43.3SVM过滤算法53.4Memory-Based方法64.总结7参考文献88基于自然语言处理的互联网垃圾信息过滤研究综述1.互联网垃圾信息过滤概述:互联网技术的发展,促使移动互联网、微博、微信、评论等社会媒体的发展。人们可以在自己的主页上发布及时的消

5、息,获得最新最快的新闻,认识更多的朋友等,互联网中的信息为我们带来了极大地方便,带我们真正进入信息时代。截至2014年11月,InternetLiveStats统计的全球互联网用户已突破30亿。各种社会媒体资源为互联网用户提供了大量的信息,满足了用户对信息的需求。但在另一方面,这些信息中往往掺杂着很多对用户无用的垃圾信息。特别是在这些社交平台上发表信息的自由性,很难避免有人在互联网社交媒体上发布与主题内容不相关的垃圾信息,或是散播虚假消息、商业广告或一些恶意链接,危害社会安定,这些对用户来说都是垃圾

6、信息。大规模的垃圾信息不仅严重影响了人们的正常交流,而且消耗大量的网络资源。因此,如何进行有效地垃圾信息过滤,在自然语言处理领域成为了一个重要的、急需解决的问题。互联网中的垃圾信息,就像身边的生活垃圾,无时不刻地影响着我们的正常生活,并且这些垃圾信息会引发了一系列的问题。首先,这些垃圾信息造成信息资源的严重浪费,降低网络的运行效率。其次,有些垃圾信息中包含恶意代码,可能导致用户信息的泄露和财产损失。另外,虚假宣传、捏造事实的垃圾信息还会危害社会秩序。这些垃圾信息给用户带来了极大地困扰,降低了用户对互

7、联网信息的信任度。本文将从自然语言处理的角度,分析互联网中的垃圾信息,并总结近些年来垃圾信息过滤的技术。第二章中,介绍了垃圾过滤的两大类方法:基于规则和模式匹配的过滤算法和基于统计机器学习的过滤算法。第三章中,对基于统计机器学习的过滤方法详细介绍了朴素贝叶斯算法、逻辑回归(LR)算法和支持向量机(SVM)算法。第四章中,对目前自然语言中对互联网中垃圾信息过滤方法进行了分析和总结。2.自然语言中垃圾信息过滤方法垃圾信息种类繁多,可以从内容上大致分为以下几类:随意信息、黄色反动言论、虚假广告、虚假获奖信

8、息。随着这种负面现象的愈加严重,管理者和科研工作者也越来越重对视垃圾信息的过滤,并形成了几种主要广泛使用的过滤方法,8基于自然语言处理的互联网垃圾信息过滤研究综述包括基于规则和模式匹配的过滤方法、基于统计机器学习的过滤方法,下面将详细对这两个方面的方法展开介绍。2.1基于规则和模式匹配的过滤方法基于规则的垃圾过滤方法是设置一些过滤规则,这些规则通常是包括关键词的精确匹配和模糊匹配,以及垃圾信息语言上的其他特征。通过查找已有的垃圾信息的匹配模式来过滤垃圾信息。常采用的是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。