欢迎来到天天文库
浏览记录
ID:34713685
大小:3.18 MB
页数:67页
时间:2019-03-09
《基于内容垃圾短信过滤系统设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、DESIGNANDIMPLEMENTATIoNoFCONTENT.BASEDSPAMSMSFILTERSYSTEMAThesisSubmittedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYCHENRongSupervisedbyAssociateProfessorHUANGJieSchoolofInformationScienceandEngineeringSoutheastUniversityFebruary2012东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下
2、进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:篮日期:曲∥东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括以电子信息形式刊登)论
3、文的全部内容或中、英文摘要等部分内容。论文的公布(包括以电子信息形式于U登)授权东南大学研究生院办理。研究生签名:兰缝兰导师签名:扭日期:盛,2.、、6摘要随着移动通信技术的发展和移动设备的日益普及,手机短信服务以其价格低廉、收发便捷和娱乐性强等特点备受我国移动手机用户的欢迎。手机用户在享受着手机短信业务便利的同时,也受到了大量含各商场打折广告信息、房地产开盘信息、违法票证等内容的垃圾短信的困扰。现有的垃圾短信过滤方法有黑白名单过滤机制、关键词过滤技术以及基于内容的过滤方法,其中基于内容的过滤技术被认为是最为有效的处理方式。在本文中将采用字符串切分技术生成文本特征,并利用
4、PAM分类算法构建基于内容的垃圾短信过滤系统。文本的主要工作包括:1)了解内容过滤的概念和实现框架,并在向量空间模型中,对文本提取两种不同的特征——词、字符串,在现有短信语料库的基础上对比测试了两种特征对过滤效果的影响,实验结果表明,提取字符串为文本特征不仅处理速度较快,而且能在最大程度上利用短信文本特征,取得了较好的过滤效果。2)详细研究了字符串匹配技术中的模糊字符串匹配技术,并对模糊字符串匹配技术中的模糊化权重赋值处理进行了一定改进。3)在进行字符串切分之前引进了冗余字符串数据处理过程用于降低字符串特征维数,其中冗余字符串数据由停用词和权重低于一定阂值的特征构成。4)
5、为解决对测试文本生成特征向量时需要多次扫描测试文本和训练库而导致处理时间过长的问题,在对现有的单模式匹配算法和多模式匹配算法研究的基础上,改进了适合于中文文本的多模式字符串匹配算法,并将其与原有算法进行了对比实验。5)设计实现基于内容的垃圾短信过滤系统。其中采用了字符串切分来生成文本特征,利用字符串模糊匹配为特征权重赋值,并采用改进的多模式字符串匹配对测试文本和冗余字符串进行处理,以及采用PAM算法作为分类算法构建了过滤系统。关键字:内容过滤,中文分词,模糊字符串匹配,多模式匹配算法AbstractWiththedevelopmentofmobilecommunicati
6、ontelenologyandthepopularizationofmobiledevice,ShortMessageService(SMS)hasobtainedtremendousdevelopmentinChina,becauseofconvenience,lowpriceandsimpleoperation.Atthesametime,mobilephoneusersaresubjecttoalargenumberspamSMSincludingdiscountedadvertisements,salespromotionandillegalmessages.Th
7、emostpopulartechniquesusedtoreducespamSMSnowadaysincludeWhiteandblacklisting,keywordfilteringandcontent—basedfiltering.Butamongthem,content.basedfilteringisthemostcommonmethodandplayingakeyroleinfiltingjunkSMS.Inthispaper,thecontent-basedspamSMSfilteradoptsstring-ba
此文档下载收益归作者所有