欢迎来到天天文库
浏览记录
ID:33102203
大小:1.35 MB
页数:76页
时间:2019-02-20
《基于数据挖掘技术的垃圾文本识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于数据挖掘技术的垃圾文本识别研究ResearchofTextSpamRecognitionBasedonDataMining姓名:李龙学号:10909042学院:工学院导师:于津专业:计算机软件与理论入学:2009/09/10答辩:2012/06/03学位论文原创性声明本论文是我个人在导师指导下进行的工作研究及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在论文中以明确方式标明。本人完全意识到本声明的
2、法律责任由本人承担。作者签名:日期:年月日学位论文使用授权声明本人授权汕头大学保存本学位论文的电子和纸质文档,允许论文被查阅和借阅;学校可将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存和汇编论文;学校可以向国家有关部门或机构送交论文并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密的论文,按照保密的有关规定和程序处理。本论文属于:保密(),在年解密后适用本授权声明。不保密()。(请在以上括号内打“√”)作者签名:导师签名:日期:年月日汕头大学
3、硕士学位论文基于数据挖掘技术的垃圾文本识别研究摘要随着Web2.0应用的深入发展,互联网已经进入了一个全民创造信息的时代,但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力;论坛、微博等用户原创型应用又提供了众多信息分享的平台。这些极大地丰富了网络中原创文本内容,但在吸引众多用户浏览和分享的同时,也吸引了垃圾信息的发布。不论出于商业利益或者政治目的,这些行为导致很多论坛、热点博客的回复区、个人空间的留言板、微博的私信中等几乎所有支持文本发布功能并能吸引公众注意力的
4、地方都充斥着垃圾信息。此类信息多以文本内容的形式出现,如何挖掘出其中潜藏的,没有价值的信息,保持数据的有效性和可用性,为用户提供一个干净的网络环境,是当前迫切需要解决的重要问题。本文提出了垃圾文本定义和垃圾文本识别概念,分析了垃圾文本形式、危害、防范方法及通用识别方法。在Hadoop集群构建的实验平台上,基于某公司的真实数据集,展开了将文本挖掘和用户行为挖掘应用于垃圾文本识别的一系列研究。通过对相关算法的改进提出了:顾盼算法,解决了热词问题,有效降低属性间依赖关系,提升了朴素贝叶斯算法的整体性能;
5、往返折半逼近算法,可快速将属性子集大小逼近理想状况;择优算法,解决了掩饰性垃圾文本较难识别的问题,有效提升了模型的召回率;首尾哈希算法,有效解决大规模长文本匹配中计算、存储代价过高问题。最后,从实验结果数据分析,上述算法在模型性能提升上均有较明显效果。论文还对文本挖掘与用户行为挖掘性能差异研究分析,论述了二者结合使用的可能性。论文还实现了部分挖掘算法的分布式并行化处理,解决了大数据挖掘中计算和存储资源的限制。关键字:垃圾文本识别;文本挖掘;用户行为挖掘;HadoopI汕头大学硕士学位论文基于数据挖
6、掘技术的垃圾文本识别研究AbstractWiththedevelopmentofWeb2.0Application,theInternethasenteredaneraofuniversalcreatingcontent,alsoanageofinformationoverload.Duetotheimprovementoftextandmediacommunicationstechniques,ourabilitytocreatecontenthasgreatlyexpanded.Atthesa
7、metime,applicationsofusercreatedcontentsuchasforumsandmicro-blogprovideusmoreplatformsforsharinginformation.Allofthesegreatlyenrichedtheoriginaltextcontentontheinternet,whichnotonlycapturethenormaluser’sattentionbutalsothespaminformation.Perhapsbecaus
8、eofinterestsorpoliticalpurposes,thesebehaviorshavemanywebsitesbecomeseaofspam,whichincludeforums,responseareaofthehotblogs,messageboardsofpersonalspaces,privatelettermediumofmicro-blogandalmostallplacesthatsupporttextpublishingandabletodrawthe
此文档下载收益归作者所有