欢迎来到天天文库
浏览记录
ID:43963258
大小:24.00 KB
页数:5页
时间:2019-10-17
《基于逻辑回归模型垃圾短信过滤系统探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于逻辑回归模型垃圾短信过滤系统探究摘要:短信作为一种方便快捷的联络方式,给人们带来便利的同时也形成了一种新型的信息污染,传统的短信过滤方法都有一定的局限性。本文在比较了垃圾短信过滤的各种技术手段及算法后选择逻辑回归模型作为垃圾短信过滤的系统模型。因为该模型在以往的中文信息过滤任务中表现出极佳的性能,并且具有较低的时间复杂度和空间复杂度。关键词:垃圾短信过滤系统逻辑回归模型特征提取中图分类号:TP391文献标识码:A文章编号:1007-9416(2013)02-0077-01短信作为一种方便快捷的联络方式,给人们带
2、来便利的同时也形成了一种新型的信息污染,短信已经开始被一些不法分子做为犯罪的工具,发送垃圾短信的手法也越来越先进,从开始的短信群发,发展到使用专门的短信群发器,现在又出现了专门挑选号码段群发短信的软件甚至木马程序等等。但垃圾短信久治难绝。1短信数据分析目前对垃圾短信过滤的一大难题,就是短信的采集工作。目前很多短信服务中心都提供了垃圾短信上报检举机制,收集了大量的垃圾短信但这些垃圾短信并不对外公开,为此我们只能采用手工收集的方式,采集短信数据。根据不同的人有不同的短信书写习惯和省略用语等问题,我们在很多同学、老师、亲
3、戚朋友以及网友的帮助通过筛选,共采集垃圾短信和非垃圾短信3000条。涵盖了广告类、欺诈类、陷阱类垃圾短信和少量的不良垃圾短信,也包含了拜年、日常交流、陌生号码来信等多种合法短信类型。通过对普通短信和垃圾短信的对比分析我们提取出短信的一般特性。对于垃圾短信和非垃圾短信来说,共同具有以下特点:(1)非结构化短文本:短信根据不同的发送者有不同短信书写习惯,有的包含很多特种符号,有的完全没有符号,基本上都不符合日常的语法规范,属于非规范性的文本。(2)口语化:所有短信,不论是垃圾短信还是非垃圾短信都是口语化的文本。正式文件
4、、官方用语是很少出现在短信这种文本结构中的。口语化使得短信的处理难度增加。2垃圾短信过滤系统模型选择模型是影响过滤系统性能的核心因素,探索适合于垃圾短信过滤的模型是本论文的研究重点。垃圾短信过滤系统模型选择上,充分考虑如下因素:(1)选用的模型具有较好的过滤性能;(2)模型的具有较低的时间复杂度和空间复杂度,能够满足手机系统的要求;(3)需要具备快速学习能力,因为通常单一用户收到的短信数量不大,反馈数量极少。从模型上看,机器学习技术可以粗略分为生成模型和判别模型。对于过滤模型,生成模型仅当以下两个条件都满足时才是最
5、优的:第一,数据的概率分布形式是已知的;第二,存在足够大的训练数据时才能采用最大似然估计来求解模型参数。但在实际应用中,这两个条件很多时候无法满足。逻辑回归模型,和SVM—样,是一种判别学习模型。逻辑回归模型和SVM本质上是一致的,都是在寻找具有最大间隔的超平面,不同的是损失函数的定义不同。但从计算复杂度上看,逻辑回归模型的计算复杂要明显低于SVM,其分类速度要也比SVM快得多。在垃圾短信上的研究也表明,逻辑回归模型的性能要更适合于信息过滤。逻辑回归模型是以某种结果发生的概率为因变量,影响该结果发生的因素为自变量建
6、立回归模型。Logistic回归模型中因变量应具有二分特点,因变量的可能取值仅有两种,即二分类变量,如发病与未发病、死亡与生存。短信过滤的应变量也仅有两种取值垃圾短信和非垃圾短信。在基于内容的短信过滤系统中,影响一条短信是垃圾短信还是非垃圾短信的因素是该短信中的特征。应用逻辑回归,可以根据短信的特征判断该短信是垃圾短信的概率如公式所示:其中:是该封短信的所有特征组成的0T向量,即(1,0,……,0,1),是该封短信的所有特征相对应的特征权重向量。判断某封短信为非垃圾短信的概率如公式所示:3垃圾短信特征提取短信过滤的
7、依据是短信的特征,特征项的定义是影响分类性能的关键因素。和文本分类问题相比,短信过滤有其特殊之处。由于巨大的利益驱动,垃圾短信发送者对其短信信息进行多方面的伪装,通过各种手段将垃圾短信伪装为正常短信,以便不被过滤系统屏蔽掉。基于字或词等特征,对垃圾短信进行过滤,过滤器被绕过的可能性非常大。本文针对各种垃圾短信中的信息伪装,采用了基于字节的n元文法即n-gram来定义特征项on-gram是将文本内容按字节流进行大小为n的滑动窗口操作,形成长度为n的字节片断序列,每一个字节片断称为gram。若以词作为过滤单元,词作为最
8、小的能自由运用的语言单位,将有助于过滤性能的提高,但对于大多数中文处理程序需要进行编码识别和词的切分,进行歧义消解,这是相当麻烦的工作,且分词的准确度难以保证;若以字作为过滤单元,不需要进行分词,实现起来比较容易,但如前所讲字特征的语义表达能力较弱。因此通过以上分析,对于中文短信过滤单元,本过滤系统采用基于字节的4-gramo4结语本文研究了基于在线判别学习
此文档下载收益归作者所有