基于朴素贝叶斯算法的不良文本过滤技术研究及应用

基于朴素贝叶斯算法的不良文本过滤技术研究及应用

ID:34673734

大小:4.80 MB

页数:73页

时间:2019-03-09

基于朴素贝叶斯算法的不良文本过滤技术研究及应用_第1页
基于朴素贝叶斯算法的不良文本过滤技术研究及应用_第2页
基于朴素贝叶斯算法的不良文本过滤技术研究及应用_第3页
基于朴素贝叶斯算法的不良文本过滤技术研究及应用_第4页
基于朴素贝叶斯算法的不良文本过滤技术研究及应用_第5页
资源描述:

《基于朴素贝叶斯算法的不良文本过滤技术研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP3910710-2015232003专业硕士学位论文基于朴素贝叶斯算法的不良文本过滤技术研究及应用赵文导师姓名职称闫茂德教授专业学位类别申请学位级别硕士控制工程及领域名称论文提交日期2018年4月5日论文答辩日期2018年6月3日学位授予单位长安大学TheResearchandApplicationofHarmfulTextFilteringTechnologyBasedonNaïveBayesAlgorithmADissertationSubmittedtoChang’anUniversityinPartialfulfillmentoftheRequirement

2、fortheDegreeofMasterCandidate:ZhaoWenSupervisor:Prof.YanMaodeChang’anUniversity,Xi’an,ChinaApril5,2018由扫描全能王扫描创建摘要随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本

3、信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检验思想,首先使用Ansj中文文本分词方法,然后将基于VSM的朴素贝叶斯分类算法与不良文本过滤相结合,

4、最终应用类别阈值集合完成验证,实现对不良文本的筛选过滤。(3)使用Java语言编写网络爬虫,应用Jsoup开源HTML解析器,分析各指定网站的网页结构,实现语料信息的抓取。在此基础上,结合应用系统信息分析筛选语料,形成最终语料集合。(4)应用Eclipse开发了基于朴素贝叶斯算法的不良文本过滤技术测试平台,采用一组基础测试对本文所提过滤技术的可行性进行了验证,并通过三组对比测试,进一步证明了该技术的过滤效果及其他改良效果。关键词:不良文本过滤,向量空间模型,朴素贝叶斯,特征选择,网络爬虫iAbstractWiththedevelopmentofInternettechnolog

5、y,networkhasbecomethemaininformationsourceforindividualsandenterprises.Theserichandvarietyinformationresourcesbringconveniencetopeople,however,theyarealsofilledwithalotofharmfulinformation,suchasreactionary,pornography,drugs,gambling,andproductsadvertisingforillegalmarketing.Thereharmfulinfo

6、rmationnotonlyhinderstheconstructionofgreenandhealthyInternetenvironment,butalsohamperstheprocessofobtaininginformation.Astextinformationhasalargeproportioninthenetworkinformation,theresearchonharmfultextfilteringtechnologyisofsignificanceapplicationmeaningincleaningupthewholeofnetworkinform

7、ation.Thus,usefultextinformationcanbeobtainedquicklyandeffectively.BasedontheNaïveBayesalgorithmwithVectorSpaceModel(VSM),aharmfultextfilteringtechnologyforlargenumberofmobilenetworkinformationisproposed,andthemethodsandmodelscontainedinitareinvest

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。