试析基于svm的中文电子邮件作者身份挖掘技术研究

试析基于svm的中文电子邮件作者身份挖掘技术研究

ID:34789529

大小:2.34 MB

页数:69页

时间:2019-03-10

试析基于svm的中文电子邮件作者身份挖掘技术研究_第1页
试析基于svm的中文电子邮件作者身份挖掘技术研究_第2页
试析基于svm的中文电子邮件作者身份挖掘技术研究_第3页
试析基于svm的中文电子邮件作者身份挖掘技术研究_第4页
试析基于svm的中文电子邮件作者身份挖掘技术研究_第5页
资源描述:

《试析基于svm的中文电子邮件作者身份挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北农业大学硕士学位论文基于SVM的中文电子邮件作者身份挖掘技术研究姓名:马建斌申请学位级别:硕士专业:农业机械化工程指导教师:滕桂法20040617接揍随着计算梳技术、信惠亿程度的舀益箍高,尤萁是驻联网的Ei益普及,电子邮件已经成为人们必不可少的经济、实用的僚息交换手段。但是,不幸的是,网上邮件滥用的现象时有发生,比如;垃圾邮件、欺骗邮件、威胁由口件、反动邮件等。在这黧邮传中,发送者总是试躅隐藏媳的真羲身镑以逃避锬察,发送老淫过蓉名鑫娶臀服务器可以更改戚伪造自己的地址,更改自己的真实姓名等,因此,通过邮件本身找邂部{孛作者懿寞实身傍是~{孛缀瓣难静攀清。这样,矫究一耱识黧原始鄄件卡#

2、翥真实身份的方法,为计算机取证提供依据,追究非法邮件作者的刑事责任,无疑为控黼菲法电子密H件的现象提供一穗行之有效的方法。本文在分析数据挖掘各种技术的揍础上,提出了一穗自动辨别或分类匿名邮件佟者身份的方法,应用支持向量撬做分类算法,提取邮件的各种特征:包括谣言特征、头俗息和结构特征,自动把邮《孛努类到预定弱《乍考类爨中。本文在分类算法及特薤掇驭策臻方覆袋褥了穰大遴展,对有限数据集的实验取得了满意的结粜,为作者身份识别提供了可能。但是分类精度还达不妥惩予计算梳敬证的程度,裔待将来迸一步研究。关键词:身份识别;邮件;支持向量机;计算机取证;数据挖掘StudyontheAuthorshipM

3、iningforChineseE-maildocumentsbasedonSVMMAJianbin(agriculturemechanizationengineering)Supervisor:ProfessorTengGuifaABSTRACTWiththerapidgrowthincomputertechnologyandinformationlevel,especiallytheincreasingpopularizationofImemet,e-mailhasbecomeallexpedientandeconomicalformofcommtmication.Butunfort

4、unately,thephenomenonofe—mailmisusageiscommonontheInteract,suchasjankmail,cheatingmail,threateningmallandantisocialmailetc.Inthesemails,thesenderalwaysattemptstohidehistrueidentityinordertoavoiddetection,Thesender’Saddresscanbeforgedandroutedthroughanonymousmailserver,orthesender’Snanlemayhavebe

5、enmodified.Soitisdifficulttofindouttherealidentityofe—mailandundoubtedlytoidentifytheoriginalauthorofillegitimatee-mailandprovideevidenceforcomputerforensicisaneffectivemethodtocontroltheillegitimatee-mailphenomenon.Inthispaper,weproposeonemethodthatidentifyorclassifyanonymouse—mailauthorshipaut

6、omaticallyonthebasisofanalyzingvariouskindsofdataminingtechnology.Weadoptthesupportvectormachinealgorithmtoextractvariouse-maildocumentfeaturesincludinglinguisticfeatures,headerinformationandstructuralcharacteristicsandclassifyorattributeauthorshipofe-mailmessagestopredefinedauthorlist.Greatprog

7、ressonclassificationalgorithmandfeatureextractionstrategyhasbeenmade.Expenmentsonalimitednumberofe—maildocumentsgavesatisfyingmsMts.Thismakesitpossibletoidentifyauthorshipofe-mall.ButtheclassificationprecisioniSfarfromthecom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。