基于空间向量模型的垃圾文本过滤方法-论文.pdf

基于空间向量模型的垃圾文本过滤方法-论文.pdf

ID:58139627

大小:322.85 KB

页数:6页

时间:2020-04-24

基于空间向量模型的垃圾文本过滤方法-论文.pdf_第1页
基于空间向量模型的垃圾文本过滤方法-论文.pdf_第2页
基于空间向量模型的垃圾文本过滤方法-论文.pdf_第3页
基于空间向量模型的垃圾文本过滤方法-论文.pdf_第4页
基于空间向量模型的垃圾文本过滤方法-论文.pdf_第5页
资源描述:

《基于空间向量模型的垃圾文本过滤方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第29卷第1期湖南科技大学学报(自然科学版)Vo1.29NO.12014年3月JournalofHunanUniversityofScience&Technology(NaturalScienceEdition)Mar.2014doi:10.13582/j.enki.1672-9102.2014.O1.016基于空间向量模型的垃圾文本过滤方法吴玮(苏州工业职业技术学院软件与服务外包学院,江苏苏州215104)摘要:针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种

2、基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.关键词:空间向量模型;垃圾文本;分类;过滤中图分类号:TP391文献标志码:A文章编号:1672—9102(2014)O1—0078—06GarbagetextclassificationfilteringmethodBasedonVSMWUWei(DepartmentofSoftware

3、andServiceOutsourcing,SuzhouInstituteofIndustrialTechnology,Suzhou215104,China)Abstract:AfeatureitemextractionalgorithmwasproposedthatbasedonVSMandimprovedTFIDF,accordingtothedemandcharacteristicsfortherecognitionandcalculationofspamtextbyapplyingVSM’Stextc

4、lusteringalgorithmandsummarizingfeaturesofexistingTFIDFalgorithm.Thealgorithmnotonlyzoomedinweightedvalueforfeatureitemofspamtextclusteringbutalsoefectivelyreducedtheimpactontheresultafectedbythedifferenceofsamplenumberofsecond—-classdataandimproveidentific

5、ationeficiencyandaccuracyinfilteringspamtext.Itprovidedanewimprovedalgorithmselectionforidentificationofspamtext.Keywords:VSM;thegarbagetext;classification;filtering进入21世纪以来,我国国际互联网以前所未有[1]提出一种通过构造多条词汇链来表达文本的的惊人速度发展,据中国互联网络信息中心叙事线索,再通过相互比较识别变异垃圾文本.该(CNNIC)发

6、布的《第31次中国互联网络发展状况统方法着重在对变异垃圾文本的识别,而非针对无参计报告》显示,截至2012年12月底,我国网民规模照对象的垃圾文本的识别.又如文献[2]通过对垃达5.64亿,全年新增网民5090万人,互联网普及率圾文本流各种特性的研究,提出一种条件概率集成42.1%.Intemet的飞速发展使得网络上的信息资源方法,设计实现了分类模型的在线训练算法和在线成指数形式增长,这为广大网民带来了异常丰富的分类算法,这种方法无需对文本进行向量表示,同网络信息资源.但同时网络中传播的广告、色情、暴时也就无

7、需向量计算,但其SPAM会随时间逐步增力、商业欺诈等不良信息内容也日益增多,这些信息加,从而影响执行效率.还有文献[3—5]也提出了通过BBS,E—mail,QQ等平台传播,在影响网络用基于VSM的文本处理方法,但未针对垃圾文本的户正常使用的同时,也在消耗有限的网络资源.特性进行处理研究.近年来,大批研究人员进行了大量基于词汇链单一垃圾文本识别与普通文本聚类在算法需、向量空间模型的文本处理方法的研究.如文献求上有较大差别,主要表现在:1)垃圾文本识别收稿日期:2013一O9—29基金项目:国家自然科学基金资助

8、项目(61305088)通信作者:吴玮(1978一),男,江苏苏州人,硕士,讲师,主要从事嵌人式系统开发研究.E—mail:wuw@siit.edu.cn第1期吴玮:基于空间向量模型的垃圾文本过滤方法79中,文本类仅有二大类,且二大类内文本聚合度有)=TF(t)%IDF(t);限;而普通文本聚类需求中文本类数量较多,各类^,t)=TF(t)log()·(2)内部文本聚合度较好;2)垃圾文本篇幅有限,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。