欢迎来到天天文库
浏览记录
ID:55341909
大小:1.51 MB
页数:12页
时间:2020-05-14
《個人郵件之 雙層垃圾郵件過濾方法 (研究計畫簡報-TWISC).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、植基於個人郵件之雙層垃圾郵件過濾方法(研究計畫簡報-TWISC)組別:隱私與資安管理指導教授:鄧惟中教授研究生:鄧維侖2007年9月26日1Outline研究背景與動機研究目的雙層式垃圾郵件過濾架構目前研究進度實驗數據未來實驗計畫2研究背景與動機現今的垃圾郵件過濾技術仍可能誤判對使用者而言重要的正常郵件使用者需要檢查被判斷為垃圾郵件的列表,以確定不會錯殺重要的郵件即使把個人郵件加入過濾器訓練,每封郵件仍然只有一個分數把門檻值提高會造成垃圾郵件的辨識率下降,把門檻值降低又會造成正常郵件的誤判率上升
2、3研究目的開發一個正常郵件過濾(WhiteMailFiltering)機制,並與現行垃圾郵件過濾器串聯,以解決現有垃圾郵件過濾器的缺點透過雙層過濾器的兩個門檻值相互配合可以同時提高垃圾郵件辨識率與降低正常郵件誤判率可以確保誤判的正常郵件並非使用者平時接收的內容,也就是可能非重要信件4雙層式垃圾郵件過濾架構圖SpamMailFolderMailWhiteListWhiteRulesMailfolderMatchInputMatchSpamMailFilterNotinWhiteListSpamMa
3、ilNotSpamMailSuspectMailInputWhiteMailFilter5目前研究進度使用中文斷詞的過濾方式(TFIDF)作為前端WhiteMailFilter的判斷方式。初步實驗結果顯示使用中文斷詞的過濾方式(TFIDF)下,對中文信件可成功達到降低誤判為垃圾郵件的情形。6正常郵件過濾器運作流程7使用MIMEParser對郵件做解碼動作以權重大小表示斷詞的重要性,權重的大小是以詞頻為基礎來定義選用蔡志浩的MMSEG,作為過濾器的斷詞模組將不必要的HTMLtag,半形、全形等等的
4、符號移除取出與關鍵字吻合的斷詞來計算,參考斷詞詞庫計算出權重,將新郵件轉為與向量庫維度相同之新郵件向量新郵件先經過解碼、斷詞與前處理的步驟實驗數據8S(only)S+WMF正常郵件總數45封垃圾郵件總數97封FalseNegative17封17封FalsePositive28封2封FalseNegativeRate17.53%17.53%FalsePositiveRate62.22%4.44%實驗平台:使用Postfix作為MTA垃圾郵件過濾器:SpamAssassin(內建貝氏學習的訓練機制)
5、實驗時間:2007/6/26~2007/7/1正常郵件訓練總數:149封垃圾郵件訓練總數:2020封實驗數據(KeepTrainingWhiteMailFilter)9S(only)S+WMFS+WMF(train)正常郵件總數28封垃圾郵件總數39封FalseNegative2封4封4封FalsePositive3封3封0封FalseNegativeRate5.128%10.256%10.256%FalsePositiveRate10.714%10.714%0%實驗平台:使用Postfix作為
6、MTA垃圾郵件過濾器:SpamAssassin(內建貝氏學習的訓練機制)實驗時間:2007/8/28~2007/8/31正常郵件訓練總數:80封垃圾郵件訓練總數:2109封實驗結論相較於變化多端的垃圾郵件,收件匣的內容確實更適合建立正常特徵規則實驗證明了正常郵件過濾器只需少量訓練樣本就能有很好的效果,同時也確實有達到降低誤判率的期望。10未來實驗計畫透過實驗數據,求得雙層過濾器其嚴格度門檻值之最佳搭配。增加英文斷詞功能以擴大過濾之適用範圍,並與現有中文斷詞結合,以產生更完整之評分。11END12
此文档下载收益归作者所有