贝叶斯分类在垃圾短信过滤中的应用.pdf

贝叶斯分类在垃圾短信过滤中的应用.pdf

ID:50144634

大小:3.20 MB

页数:65页

时间:2020-03-06

贝叶斯分类在垃圾短信过滤中的应用.pdf_第1页
贝叶斯分类在垃圾短信过滤中的应用.pdf_第2页
贝叶斯分类在垃圾短信过滤中的应用.pdf_第3页
贝叶斯分类在垃圾短信过滤中的应用.pdf_第4页
贝叶斯分类在垃圾短信过滤中的应用.pdf_第5页
资源描述:

《贝叶斯分类在垃圾短信过滤中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号_____________________^密级.UDC_____________________学校代码AitU4学术型碩士研光生#位论丈贝叶斯分类在垃圾短信过滤中的应用'V学院(部、所):信息学院专业:计黧机软件与理论姓名:葛广为應导师:王元亮论文起止时间:2014年5月〜2015年5月摘要摘要近年来,随着移动通讯技术的快速发展和手机用户人数的持续增长,手机短信因为具有随时收发、价格低廉和便于人们传达信息等优点,已经成为人们日常生活中进行信息交流的重要方式。不法分子利用短信的价格低廉,易于群发等特

2、点,对用户发送大量垃圾短信,严重影响人们的日常生活,其中诈骗类短信还对人们的财产安全造成威胁,因此垃圾短信过滤技术亟待完善。现在的垃圾短信过滤技术主要有:黑白名单过滤、关键词过滤和基于内容的过滤。然而这种单一功能的过滤技术的过滤能力比较有限,很多垃圾短信都过滤不了。因此本文构建了一种包含黑白名单、关键词和内容智能过滤等功能的垃圾短信过滤系统。在文本分类方面朴素贝叶斯分类有一个很关键的条件,就是待分类文本的各个属性特征是相互独立的,然而这一条件在有些场合并不能被满足。朴素贝叶斯在短信分类方面查全率较低,容易把

3、正常短信归为垃圾短信,与人们的实际期望不符。针对上面两个问题,本文采用了一种改进的贝叶斯分类算法,它运用改进的类条件概率估计值法和改进的判别函数来解决相互独立和查全率低的问题。对两种分类算法进行了实验对比,结果表明改进的贝叶斯查全率和综合性能要优于朴素贝叶斯。随着垃圾短信过滤系统的研究与发展,不法分子也想出了种种手段,通过变换短信内容,企图躲避过滤系统的拦截。对短信内容的变换包括:添加干扰符,繁体字替换,拆分字替换,谐音字替换等。这些层出不穷的手段给垃圾短信过滤系统带来巨大挑战。本文对这些变换问题进行了研究

4、,并给出了解决方法。本文的主要工作包括:1.分析比较不同文本分类算法的优缺点,根据手机短信分类的特点选择贝叶斯分类算法作为本文的研究方法;2.解决了垃圾短信的变换问题,如:繁体字替换、谐音替换、拆分字替换、干扰符号等等;3.对五种特征提取方法进行比较,采用一种综合词频和互信息优点的特征提取方法,并与互信息特征提取方法进行了实验比较;I摘要4.参考现有的垃圾短信过滤技术,融合黑白名单过滤、关键词过滤和基于内容的过滤,构建了一种基于改进贝叶斯分类算法的垃圾短信过滤系统,并对其性能进行实验分析。关键词:垃圾短信过

5、滤;特征提取;文本文类;短信预处理;中文分词IIAbstractAbstractInrecentyears,withthecontinuedgrowthoftherapiddevelopmentofmobilecommunicationstechnologyandthenumberofmobilephoneusers,sendandreceiveSMSbecauseithasatanytime,inexpensiveandconvenientforpeopletoconveyinformation,etc.

6、,hasbecomeanimportantwayofpeople'sdailylifeinformationexchange.LowcriminalsusingSMSprice,easeofmassandothercharacteristicsoftheusertosendalargenumberofspammessages,seriouslyaffectingpeople'sdailylives,includingfraudclassmessagingalsothreatenthesafetyofpeop

7、leandproperty,sothespamSMSfilteringtechniqueneedsimprovement.NowspamSMSfilteringtechnologiesare:blackandwhitelistfiltering,keywordfilteringandcontent-basedfiltering.However,thissinglefeaturefilteringcapabilitiesfiltrationtechnologyislimited,manyspammessage

8、sarenotfiltered.Therefore,thispaperconstructsalistthatcontainsblackandwhite,keywordandcontentfeaturessuchasintelligentspamfilteringSMSfilteringsystem.IntextclassificationNaiveBayesclassifierhasaverycriticalco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。