欢迎来到天天文库
浏览记录
ID:24391292
大小:50.00 KB
页数:4页
时间:2018-11-14
《基于最大熵方法的垃圾邮件过滤插件的设计与实》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于最大熵方法的垃圾邮件过滤插件的设计与实摘要:结合邮件的半结构化特征,将最大熵模型引入垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架。在此基础上,将其与Outlook提供的PIA相结合,利用.技术开发出基于最大熵模型的垃圾邮件过滤插件,在客户端实现了基于内容的垃圾邮件过滤,较好地解决了垃圾邮件的问题。 关键词:最大熵模型;邮件过滤;.;Outlook插件 电子邮件以其方便、快捷、低成本等优点逐渐成为人们日常生活中主要的通信手段之一。但大量垃圾邮件的出现,给全球用户带来了巨大损失。据调查,我国用户平均每人
2、每周收到的垃圾邮件数量占收到的总邮件数量的61.63%[1]。垃圾邮件的泛滥已带来严重后果,因此有效地区分正常邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起。常见的过滤方法有黑、白名单技术和规则过滤等,但由于邮件发送者在不断变化,规则难以维护,准确率不高,使这些方法都具有一定的局限性。将垃圾邮件过滤与机器学习、文本分类和信息过滤技术相结合,对邮件正文内容进行分析,已成为目前研究的热点[2]。 最大熵模型是一种广泛应用于统计自然语言处理领域的技术。结合邮件的半结构化特性,本文将最大熵模型应用到
3、垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架,并将其与Outlook相结合,基于.平台开发出了Outlook垃圾邮件过滤插件,在客户端利用最大熵模型实现了基于内容的垃圾邮件过滤。 1基于最大熵模型的垃圾邮件过滤 1.1最大熵模型 2.1互操作程序集 .框架中提供的Interop技术,使开发人员可以在.代码中直接访问组件。其基本原理[4]是,针对用户要访问的组件,.框架自动生成一个互操作程序集(InteropAssembly,IA)。IA是一个完全的托管程序集,其命名空间、类、方法等都与组件
4、相对应。这样,在.程序中可以直接引用IA,由IA完成对真正组件的访问。图2说明了IA的作用。 2.3用.开发Outlook插件 利用PIA,开发人员可以在.中方便地对Outlook的编程接口进行操作[7]。VisualStudio.2003提供了“共享的外接程序”项目模板,通过创建自定义外接程序,对Outlook2003进行功能扩展。完成共享的外接程序向导后,得到包含两个项目的解决方案,即外接程序项目和对应的安装项目。 外接程序自动引用程序集Extensibility.dll。它包含命名空间Extensibili
5、ty。其中确切定义了三个类型: (1)IDTExtensibility2——所有外接程序都必须实现的关键接口; (2)ext_ConnectMode——枚举变量,表示将宿主程序(Outlook)连接到外接程序的各种方式; (3)ext_DisconnectMode——枚举变量,表示将外接程序与宿主程序断开的各种方式。 2.3.1IDTExtensibility2接口的角色 IDTExtensibility2接口类型定义了在插件生命周期的各个阶段宿主应用程序所调用的方法。 (1)OnConnection()方法—
6、—插件连接到宿主程序时调用该方法。成功返回表明已加载了插件;否则宿主程序立即释放其对该插件的引用。 (2)OnDisconnection()方法——插件断开连接并且在从内存中卸载之前,将激活此事件。 (3)OnAddInsUpdate()方法——当最终用户在宿主程序中插入或删除插件时,调用OnAddInsUpdate()方法。 (4)OnStartupplete()和OnBeginShutdoandBarButton的步骤如下:
此文档下载收益归作者所有