欢迎来到天天文库
浏览记录
ID:13036315
大小:191.00 KB
页数:6页
时间:2018-07-20
《基于adaboost的文本隐写分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第12期眭新光等:基于AdaBoost的文本隐写分析·141·基于AdaBoost的文本隐写分析眭新光,沈蕾,燕继坤,朱中梁(信号盲处理国家重点实验室,四川成都610041)摘要:通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,并提出了基于AdaBoost的通用检测算法。抽取文本的5个基本统计特征量为分类特征,对自然文本和载密文本进行有效分类检测。实验证明该算法具有较好的适用性和可靠性。关键词:隐写分析;文本;统计特征量;AdaBoost中图分类号:TP391文献标
2、识码:B文章编号:1000-436X(2007)12-0136-05TextsteganalysisusingAdaBoostSUIXin-guang,SHENLei,YANJi-kun,ZHUZhong-liang(NationalKeyLab.ofBlindSignalsProcessing,Chengdu610041,China)Abstract:Thestatisticalmodelsandfeaturesofnaturaltextswasanalyzed,anditwaspointedo
3、utthatembeddingmessagesintextswillchangethefeaturesofthem.Accordingtothechanges,ablinddetectingmethodwasdesignedusingAdaBoost.Fivebasicparametersoftextswasextractedasdistinguishedfeaturevectorstodiscriminatenaturaltextsandstego-textseffectivelyusingAd
4、aBoost.Experimentalresultsshowthehighaccuracyandreliabilityofthemethod.Keywords:steganalysis;text;statisticalfeatures;AdaBoost第12期眭新光等:基于AdaBoost的文本隐写分析·141·1引言隐写分析是判断一个载体(如文本、图像)中是否隐藏有信息,是信息隐藏技术的逆向分析过程,在近年来已经成为信息隐藏技术领域的一个研究热点。目前提出的各种隐写分析方法主要有通用隐写分析算法
5、和针对特定隐藏算法或工具的隐写分析算法。有针对性的隐写分析算法虽然具有较好的性能[1~3],但是由于其适用面窄,通用性差,具有一定的局限性。而通用的隐写分析方法不需要对隐藏算法有先验知识,不依赖于具体的隐藏算法,因而对未知的算法具有很强的适应性,也是隐写分析算法发展的趋势。目前,在通用的隐写分析方面已经提出了许多有代表性的方法[4~7]。收稿日期:2007-09-03;修回日期:2007-11-07机器学习中的boosting算法目标是提高任何给定的学习算法的分类准确率。概括地说,此方法依次训练一
6、组分量分类器,其中每个分量分类器的训练集都选择已有的其他各个分类器所给出的“最富信息”(mostinformative)样本。而最终的判决结果则是根据这些分量分类器的结果共同决定。AdaBoost(adaptiveboosting)是boosting家族最具代表性的一系列算法。在AdaBoost方法中,每一个训练样本都被赋予一个权重,通过这样的方式,AdaBoost方法“聚焦于”那些较困难(更富信息)的样本上。对许多实际的应用,AdaBoost方法被证明是非常有效的[8]。本文把AdaBoost第
7、12期眭新光等:基于AdaBoost的文本隐写分析·141·引入文本隐写分析,从机器学习的角度来分析隐藏信息的检测问题。文章从分析自然文本(指自然英文文本,下同)的统计模型和自然属性入手,提取出在信息隐藏过程中可能被修改的统计特征来对分类器进行训练,获得分类器的模型参数,并以此来对未知文本进行检测。该方法操作性强,稳定可靠,并通过实验验证了算法的有效性。2文本统计模型与特性分析由于自然文本中可以有许多种语言,而每种语言的自然文本具有不同的特点,要建立能适用于各种语言的自然文本的精确模型是很困难的。
8、实际上,即使对单一语言的自然文本,也很难建立一个精确的模型。现有的模型一般都是针对某一方面的需求或者根据文本的某个特点而建立的,能从某个角度来对文本做比较细致的解析,而难以从所有方面对文本都有精确的分析。2.1马尔可夫(Markovian)模型与字母分布在文本中用得比较多的是马尔可夫(Markovian)模型。马尔可夫模型认为,自然语言中一个符号对先前的符号有某种依赖性,一个符号是由先前一个或者更多的符号决定的[9],即(1)其中,ti为文本中第i个字符。若把这里的符号理解为单词,
此文档下载收益归作者所有