资源描述:
《多层支持向量机在垃圾短信过滤中的应用分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、-河北工业大学硕士学位论文多层支持向量机在垃圾短信过滤中的应用研究姓名:范伶彩申请学位级别:硕士专业:计算机应用技术指导教师:武优西20081101---河北工业大学硕士学位论文多层支持向量机在垃圾短信过滤中的应用研究摘要随着手机使用的普及,人们享受着现代化通信手段带来的快捷方便,短信业务也得以迅速发展,但伴随而来的问题是垃圾短信已经严重地影响着广大手机用户的正常使用。这一现象不仅在我国广泛存在,在欧、美、日等发达国家也普遍存在,这个问题已经成为了世界公害。本文把垃圾短信分类问题视为文本分类问题,并对现有的垃圾短信过滤方法进行了研究,分析了基于传统支持
2、向量机的垃圾短信过滤方法的缺点和支持向量机算法本身存在的问题,经过研究,提出了多层支持向量机理论以及其解决问题的方法和理论意义。根据多层支持向量机的原理提出的垃圾短信判别的解决方案是:(1)在垃圾短信识别前,针对以往短信过滤中的信息丢失问题,利用支持向量机对短信是否包含电话信息进行了判别。(2)把短信是否包含电话这一维信息加入到原始特征空间中,并进行噪声处理、信息重复处理、信息量维护处理之后,再利用支持向量机进行垃圾短信判别,从而构成了多层支持向量机求解问题的过程。本文提出了短信中电话号码识别的方法,并进行了改进,使得电话识别准确率有了明显的提高;实验
3、并提出了基于多层支持向量机的最优过滤模型;分析了电话识别准确率对最终垃圾短信识别准确率的影响;并对传统支持向量机和多层支持向量机进行了对比,最终得出结论:多层支持向量机的应用有效提高了垃圾短信判别率,从而也证明了多层支持向量机的合理性。多层支持向量机方法的确立,不但可以提高支持向量机分类算法的分类能力,而且对模式识别中其它分类或聚类算法的深入研究都能起到借鉴和促进意义。关键词:多层支持向量机,垃圾短信,电话信息,文本分类,模式识别---i---多层支持向量机在垃圾短信过滤中的应用研究THEAPPLICATIONANDSTUDYOFFILTERINGJU
4、NKSHORTMESSAGEBASEDONMULTI-SUPPORTVECTORMACHINEABSTRACTWiththepopularityoftheuseofcellphones,shortmessageservicehasalsodevelopedrapidly,buttheattendantproblemisthatjunkshortmessageshaveaseriousimpactonthemajorityofthenormaluse.Thisphenomenonisnotonlywidespreadinourcountry,butals
5、oexistsinotherdevelopedcountries.Theproblemhasbecomeapublichazardintheworld.Inthispaper,junkSMsfilteringproblemhasbeenputforwardastextcategorization.ItresearchestheexistingjunkSMsfilteringmethods,includingthosebasedonsupportvectormachine(SVM)junkshortmessagesfilteringmethods,pro
6、cesses,advantages,andsoon.ItanalyzesshortcomingsofthetraditionalSVMjunkSMsfilteringmethodandtheproblemofSVMalgorithm.Thenitputsforwardmulti-layersupportvectormachine(MLSVM)anddiscussesthemeritsofSVM.Atlast,itshowsthesignificanceofthetheory.AccordingtotheMLSVMprinciple,putforward
7、solutionsofjudgingthejunkshortmessageare:first,judgetheshortmessagewhetherornotcontainsthetelephoneinformationbySVM,thenputtheresultintotheoriginalcharacterspace,afterthat,dealwiththenoiseandredundantinformation,lastjudgetheshortmessagewhetherisjunkshortmessagebySVM.Inthispaper,
8、itgetsthebestfilteringmodelbasedonMLSVM.Through