一种改进自动更新中文邮件过滤模型设计

一种改进自动更新中文邮件过滤模型设计

ID:5238593

大小:31.50 KB

页数:9页

时间:2017-12-06

一种改进自动更新中文邮件过滤模型设计_第1页
一种改进自动更新中文邮件过滤模型设计_第2页
一种改进自动更新中文邮件过滤模型设计_第3页
一种改进自动更新中文邮件过滤模型设计_第4页
一种改进自动更新中文邮件过滤模型设计_第5页
资源描述:

《一种改进自动更新中文邮件过滤模型设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一种改进自动更新中文邮件过滤模型设计  摘要:该文提出了一种改进的基于用户操作信息自动学习的贝叶斯算法,该算法在最小风险贝叶斯算法的基础上,自动学习新样本,弥补了传统的贝叶斯分类器不能及时更新的缺陷。建立自动更新的中文邮件过滤模型,通过搭建实验平台测试对比分析改进的基于用户操作信息自动学习的贝叶斯算法的综合性能。关键词:中文邮件过滤模型;贝叶斯分类算法;自动学习中图分类号:TP393文献标识码:A文章编号:1009-3044(2013)20-4706-049根据卡巴斯基实验室数据,2012年垃圾邮件占所有电子邮件平均比例为7

2、2.1%。较2011年相比,下降了8.2个百分点。垃圾邮件数量下降的主要原因,是反垃圾邮件保护整体水平上升造成的。尽管电子邮件总数中的垃圾邮件比例有明显下降,但是电子邮件总包含恶意附件的邮件比例仅下降了3.4%。这一比例仍然很大,因为这一比例仅代表那些包含恶意附件的垃圾邮件,不包括那些具有指向恶意网站链接的电子邮件。同时2012年恶意电子邮件所使用的主题范围也更为广泛。垃圾邮件发布者主要假冒托管服务商、社交网络、快递公司、航空公司、酒店预定服务、优惠券服务以及金融机构和政府机构发送垃圾邮件。由于垃圾邮件和入侵、病毒等的结合越

3、来越密切,黑客把垃圾邮件作为发动攻击的重要平台。垃圾邮件过滤功能目前被应用到所有电子邮件系统中,甚至免费的邮件系统。在垃圾邮件过滤过程中,用户最不愿意接受的就是将合法邮件误判为垃圾邮件,传统贝叶斯算法没有考虑到这种误判给用户带来的损失。由于目前垃圾邮件的形式千变万化,这就要求垃圾邮件过滤器必须随着垃圾邮件的变化而自动更新。因此本文从朴素贝叶斯算法出发,提出了最小风险贝叶斯邮件过滤算法和改进的基于用户操作信息自动学习的贝叶斯算法,该算法自动学习新样本,将新样本中新出现的特征信息能够自动添加到过滤器特征词库中,并自动更新分类器,

4、弥补了传统的贝叶斯分类器不能及时更新的缺陷。用户能根据需求调整损失因子的大小,通过引进的一种最小风险贝叶斯决策规则来减小给用户造成的损失,达到较理想的过滤性能。1一种改进的基于用户操作信息自动学习的贝叶斯算法1.1最小风险贝叶斯决策与算法1.1.1最小风险贝叶斯决策规则假设邮件样本可由特征向量[tei]表示,决策空间由[n]个决策[βi,i=1,2,…,n]构成,状态空间由[m]个状态[εj,j=1,2,…,m]构成,则用损失函数[λ(βi,εj)]表示状态[εj]采取的决策[βi]时的损失,[λ]称作损失因子。9已知先验概

5、率[P(εj)]和类条件概率[P(tei

6、εj)],[j=1,2,…,m],因此在此条件下,根据贝叶斯公式,后验概率的公式为:由于损失因子[λ]的引入,在考虑误判带来的损失时,就应该考虑如何作出的决策才能使损失最小化。对于特征向量[tei],故在采取在采取决策[βi]时的条件期望损失为:所谓条件风险就是采取决策[βi]时的条件期望损失值。若将得到的[n]个条件条件期望损失值排序,我们就能很容易找出决策[βk]使条件风险最小,即使条件风险最小的决策[βk]为:[F(βk

7、tei)=mini=1,2,…nF(βi

8、tei)],则

9、找出的决策[βk]就是最小风险贝叶斯决策。1.1.2最小风险贝叶斯邮件过滤算法在实际的邮件分类中,将待分类邮件分为垃圾邮件和合法邮件两类(即[n=2]),易知邮件类别[ε={ε1,ε2}],若我们用[ε1]表示垃圾邮件类别,[ε2]表示合法邮件类别。同时决策[β]也有两类:一类是把待分类的邮件叛定为垃圾邮件,用决策[β1]表示,另一类是把待分类邮件判定为合法邮件,用决策[β2]表示,则有:[β={β1,β2}]。故由判断所引起的损失可以分为以下几种情况:1)把垃圾邮件判定为垃圾邮件,其损失为[λ(β1,ε1)];92)把垃圾

10、邮件判定为合法邮件,其损失为[λ(β2,ε1)];3)把合法邮件判定为垃圾邮件,其损失为[λ(β1,ε2)];4)把合法邮件判定为合法邮件,其损失为[λ(β2,ε2)]。由于在邮件分类过程中,将垃圾邮件分类为合法邮件的过程很普遍,假定情况(2)的损失设为1,而情况(3)所带来的损失远远大于情况(2)的损失,故可将合法邮件判定为垃圾邮件的损失设为[λ(1≤λ≤+∞)](表示将一封合法邮件判定为垃圾邮件所带来的损失相当于将一封垃圾邮件判定为合法邮件的损失的[λ]倍)。建立决策损失表如表1所示。通过上面的分析,在此基础上定义阈值[

11、q=λ1+λ],用它来反映用户对垃圾邮件的误判和对合法邮件误判的权重,即当[P(ε1

12、tei)≥q],将[tei]分类到合法邮件的损失比归类到垃圾邮件的损失大。若[λ=1],易知[q=0.5],此时相当于下朴素贝叶斯分类决策;若[λ=9],[q=0.9],由此表明把1封合法邮件的误判与把9

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。