欢迎来到天天文库
浏览记录
ID:28821718
大小:9.72 MB
页数:88页
时间:2018-12-14
《基于内容的客户端垃圾短信过滤系统的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于内容的客户端垃圾短信过滤系统的研究摘要当今社会垃圾短信泛滥,严重骚扰着手机用户,并且为人们正常使用手机进行交流和沟通带来了极大的不便,有些违法短信和不良短信也带来了一定的社会危害。因此垃圾短信过滤是当今学术界研究的一大热点也是难点,但它同时也是广大手机用户的迫切需求。本文主要研究了基于内容的垃圾短信过滤,它可以看成是一个不规则短文本的分类问题。其核心是分类算法。主要工作包括短信语料的采集和分析、过滤系统的研究设计、核心过滤算法的选择和实验、实验系统的搭建和测试等。在短信语料方面,本文采集了2089条短信,并且从中选择了部分语料进行深入分析,总结
2、提取了短信和垃圾短信的特征,为以后的过滤研究打下了基础。同时这些短信语料也将作为实验系统的训练和测试语料。在系统框架设计中,首先考虑了实现途径和过滤原则。通过对比选择了基于客户端的垃圾短信过滤途径。并且根据手机用户对垃圾短信的过滤需求,提出了垃圾短信过滤原则,即“宁可放过,不能错杀"。在核心过滤算法方面,借鉴了目前成熟垃圾邮件过滤方法,选取了三种过滤方法,即决策树算法、最大熵算法和显式规则算法,并实现了基于PC机的垃圾短信过滤实验系统。都取得了较好的过滤效果,其中决策树算法的平均正确率为97.2%,平均召回率为96.71%。最大熵算法的平均正确率为
3、96.55%,平均召回率为95.85%,基于显式规则的过滤系统在保证了100%的正确的情况下,召回率达到76.79%。最后对三种算法从过滤效果,时间复杂度和灵活性方面进行了对比,阐述了基于显式规则的过滤算法的优越性。关键词:基于内容的垃圾短信过滤,决策树,最大熵,显式规则。CONTENT.BASEDJUNKSHoRTMESSAGESF11月EIUNGINCLIENTSIDEABSTRACTRecentlytheproliferationofjunkshortmessagesseriouslybringsmuchharassmenttotensofm
4、illionsofmobilephoneusers,aswellasgreatinconveniencetonormalcommunications.Someillegalshortmessagesevenhavedonegreatharmtooursociety.Theresearchonthejunkshortmessagefilteringbecominghotsinceitistheurgentrequirementofthemobilephoneusers.Inthisthesis,themainresearchiScontent·bas
5、edjunkshortmessagesfilteringwhichCallbetreatedasirregularshorttextclassificationproblem.SothekerneloffilteringiSclassificationalgorithm.Thewholeresearchincludedthecorpuscollectionandanalysis,filteringsystemdesigning,thekeyfilteringalgorithmselection,experimentsystemdevelopinga
6、ndtestingetc.Incorpuscollection,2089shortmessageshavebeencollectedforthelearningandtestingcorpus.Contentanalysisofthesomejunkshortmessagesandnormalonesisdonetogeneratetheircharacteristiesforlatercontentprocessingalgorithm.Therearetwowaysforjunkshortmessagefiltering,inclientsid
7、eandserverone.Sincetheresultofcomparingbetweentwoways,thefilteringinclientWaschosen.Andaccordingtotherequirementsofmobilephoneuserswithjunkshortmessagefiltering,afilteringprincipleWasproposed,whichcanbeexpressedas“Judgingthejunkmessageasnormalisbetterthanviceversa.”Throughthes
8、imilarityofthejunkmessageandjunkemail,themethodsforcontent-ba
此文档下载收益归作者所有