欢迎来到天天文库
浏览记录
ID:35136263
大小:2.00 MB
页数:56页
时间:2019-03-20
《探析一种基于向量空间的多语言反垃圾短信系统的设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京理工大学硕士学位论文一种基于向量空间的多语言反垃圾短信系统的设计和实现姓名:王燕萍申请学位级别:硕士专业:计算机应用技术指导教师:张宏20060601颧士论文一种基于向量空间的多语言反域圾短信系统的设计和实现摘要现代社会很多的信息传递都是依靠手机进行的,手机短信就是其中一种重要的形式。正常的短信增进了我们个入与社会的沟逶,这也正是短信能蓬勃发展的原因。但现在正有越来越多的人利用短信的高阅读率来发送备类垃圾短信,这类短信包括广告,欺诈等。这类短信已严重影响了我髑豹日常生活,懿籍有效的识剐并隔离这些垃圾短信已成为研究热点。本文研究了聚用向量空闻模型从内容上
2、对短信进行分类的方法。在向量空阍摸型方法使用的过程中,我们把本系统分成了三个主要部分。第一部分训练模块,第二部分训练结果评测,第三部分用户端模块。其中,第一和第二部分已在台式电脑上得以实现,第三部分在windowsmobile平台的智能手机土得以实璇。在训练中,根据训练样本应用向量空间模型的方法来得到属性列表和机器学习模型文传,农机器学蜀模型文件中就包含了两个类剐中心向量。农训练结慕评溅过程中,庶用夹角余弦法这种计算简单向量距离的方法求出释测试向量与各个类别中心向量之闺的距离,以此来预测各镶4试自耋熬属类。为正常程垃圾短傣分别设嚣正负识别率的闽值,必有当对
3、简繁体中文短信的正负识别率都超过了我们预定的阐值之后,才进入到应用除段,也就是用户端模块。在这个阶段中,就能直接作用于所收到的短信:’落会判断出所接收到的短俗是垃圾短信还是正常短信,并根据判断所得到的类别来把所接收到的短信放入手机中特定的文件夹中。实验表明,本系统对简体和繁体中文的短信都取得了较好的识别率。关键词卜向量空间模型,机器学习,反垃圾短信,文本分类硕士论文一种基于向量空间的多语言反垃圾短倍系统的设计和实现AbstractInthismodernsociety,alotofinformationistransferredviacellphone,a
4、ndshortmessageisaveryimportantformat.Normalshortmessagesaccelerateoutcommunicationwiththesociety,butmoreandmorepeopleororganizationsbegintomakeuseofshortmessages:theysendoutalargenumberofspamshonmessages,suchasadvertisementanddeceit.Thesespamshortmessageshavemadegreatbadeffectonou
5、rdailylife.Howtorecognizethespamshortmessageshasbecomeanurgenttask.Inthispaper,wemakesomeresearchinusingtheVectorSpaceModeltoclassifytheshortmessages。T挝ssystemCanbedividedintothreeparts:first,training;second.testing;third,application.Thefirstandsecondstepshavebeenimplementedonthep
6、ersonalcomputer,andthethirdstephasbeenimplementedontheslnartphonewiththeoperatingsystemofwindowsmobile.Intraining,accordingtoVSM,wegetthefeaturelistfileandthemachinelearningmodelfile,andtwoclasscentervectorsarecontainedinthemachinelearningmodelfile。Intheprocedureoftesting,aftercom
7、putingthecosinebetweenthetestingvectorandtheclasscentervector,wecallclassifythetestingSampleintoaspecificclass.Wesetupthethresholdvalueforbothnormalshortmessagerecognitionratioandspamshortmessagerecognitionratio.Ifnormalshortmessagerecognitionratioandspamshortmessagerecognitionrat
8、iowerebothbeyondthethresholdvalue
此文档下载收益归作者所有