基于内容的客户端垃圾短信过滤系统的分析

基于内容的客户端垃圾短信过滤系统的分析

ID:28821718

大小:9.72 MB

页数:88页

时间:2018-12-14

基于内容的客户端垃圾短信过滤系统的分析_第1页
基于内容的客户端垃圾短信过滤系统的分析_第2页
基于内容的客户端垃圾短信过滤系统的分析_第3页
基于内容的客户端垃圾短信过滤系统的分析_第4页
基于内容的客户端垃圾短信过滤系统的分析_第5页
资源描述:

《基于内容的客户端垃圾短信过滤系统的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于内容的客户端垃圾短信过滤系统的研究摘要当今社会垃圾短信泛滥,严重骚扰着手机用户,并且为人们正常使用手机进行交流和沟通带来了极大的不便,有些违法短信和不良短信也带来了一定的社会危害。因此垃圾短信过滤是当今学术界研究的一大热点也是难点,但它同时也是广大手机用户的迫切需求。本文主要研究了基于内容的垃圾短信过滤,它可以看成是一个不规则短文本的分类问题。其核心是分类算法。主要工作包括短信语料的采集和分析、过滤系统的研究设计、核心过滤算法的选择和实验、实验系统的搭建和测试等。在短信语料方面,本文采集了2089条短信,并且从中选择了部分语料进行深入分析,总结

2、提取了短信和垃圾短信的特征,为以后的过滤研究打下了基础。同时这些短信语料也将作为实验系统的训练和测试语料。在系统框架设计中,首先考虑了实现途径和过滤原则。通过对比选择了基于客户端的垃圾短信过滤途径。并且根据手机用户对垃圾短信的过滤需求,提出了垃圾短信过滤原则,即“宁可放过,不能错杀"。在核心过滤算法方面,借鉴了目前成熟垃圾邮件过滤方法,选取了三种过滤方法,即决策树算法、最大熵算法和显式规则算法,并实现了基于PC机的垃圾短信过滤实验系统。都取得了较好的过滤效果,其中决策树算法的平均正确率为97.2%,平均召回率为96.71%。最大熵算法的平均正确率为

3、96.55%,平均召回率为95.85%,基于显式规则的过滤系统在保证了100%的正确的情况下,召回率达到76.79%。最后对三种算法从过滤效果,时间复杂度和灵活性方面进行了对比,阐述了基于显式规则的过滤算法的优越性。关键词:基于内容的垃圾短信过滤,决策树,最大熵,显式规则。CONTENT.BASEDJUNKSHoRTMESSAGESF11月EIUNGINCLIENTSIDEABSTRACTRecentlytheproliferationofjunkshortmessagesseriouslybringsmuchharassmenttotensofm

4、illionsofmobilephoneusers,aswellasgreatinconveniencetonormalcommunications.Someillegalshortmessagesevenhavedonegreatharmtooursociety.Theresearchonthejunkshortmessagefilteringbecominghotsinceitistheurgentrequirementofthemobilephoneusers.Inthisthesis,themainresearchiScontent·bas

5、edjunkshortmessagesfilteringwhichCallbetreatedasirregularshorttextclassificationproblem.SothekerneloffilteringiSclassificationalgorithm.Thewholeresearchincludedthecorpuscollectionandanalysis,filteringsystemdesigning,thekeyfilteringalgorithmselection,experimentsystemdevelopinga

6、ndtestingetc.Incorpuscollection,2089shortmessageshavebeencollectedforthelearningandtestingcorpus.Contentanalysisofthesomejunkshortmessagesandnormalonesisdonetogeneratetheircharacteristiesforlatercontentprocessingalgorithm.Therearetwowaysforjunkshortmessagefiltering,inclientsid

7、eandserverone.Sincetheresultofcomparingbetweentwoways,thefilteringinclientWaschosen.Andaccordingtotherequirementsofmobilephoneuserswithjunkshortmessagefiltering,afilteringprincipleWasproposed,whichcanbeexpressedas“Judgingthejunkmessageasnormalisbetterthanviceversa.”Throughthes

8、imilarityofthejunkmessageandjunkemail,themethodsforcontent-ba

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。