三种模式匹配算法的比较和分析

三种模式匹配算法的比较和分析

ID:18899621

大小:114.00 KB

页数:8页

时间:2018-09-26

三种模式匹配算法的比较和分析_第1页
三种模式匹配算法的比较和分析_第2页
三种模式匹配算法的比较和分析_第3页
三种模式匹配算法的比较和分析_第4页
三种模式匹配算法的比较和分析_第5页
资源描述:

《三种模式匹配算法的比较和分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、三种模式匹配算法作业要求:分别用KMP、MonteCarlo、LasVegs算法编制三个程序,随机生成不小于5000对长度不等的01串(三个程序使用相同的串),然后统计算法的执行时间和MonteCarlo算法的出错比率,并根据运行结果对三种算法进行深入的比较。1、算法思路KMP算法的主要特点是指向主串的指针不需要回溯,只向右移动,即模式串在与主串失配时,并不回溯主串的指针与模式串重新匹配,而是根据已经得到的匹配信息将模式串尽可能远的向右滑动一段。滑动距离的大小取决于模式串的失效函数next,next[k](0<=k<=m-1)的值表示当模式串在下标为k的字符处与主串失配时应该向右

2、移动到下标为next[k]的字符处再与主串重新匹配。算法首先要求模式串的失效函数next,然后再根据next的值进行模式匹配,在最坏情况下的时间复杂度为O(m*n),m为模式串的长度,n为主串的长度,当如果模式串中有较多相同的字符时,时间复杂度一般可达到O(m+n)。MonteCarlo随机算法主要是通过比较模式串和主串中与模式串等长的串的“指纹”来匹配的,若两者指纹相等,则可以认为在概率意义下两者是相等的,算法中要求用到一个随机产生的素数作模运算,该素数的选取直接影响了算法的准确率,算法的时间复杂度为O(m+n)。但有一定的出错率,即选取主串中比较串的指纹与模式串相等时但比较串

3、与模式串并不相等,理论上这种情况出现的概率为1/n,只与主串的长度有关,与模式串的长度无关,但实际上只要选取素数合适出错率比1/n要小的多。LasVegas算法是对MonteCarlo算法的改进,当模式串的指纹与主串中的比较串相等时,此时并不直接返回匹配的位置,而是判断两个字符串是否真的相等,相等则返回,否则继续匹配。所以,该算法总能得到正确的位置,但算法的执行时间稍微比MonteCarlo算法要长一点(判断字符串是否相等的耗费),时间复杂度的期望值不超过O(m+n)。要完成上述三个模式匹配算法的比较,需要一个0/1串的随机发生器和一个素数发生器。程序中头文件”randstr.h

4、”包含的RandomString类是用来产生MAXSIZE对的主串和模式串的,0/1串的长度和内容都是随机的,为了便于比较,规定主串的长度一定大于模式串的长度。”random.h”包含的Random类封装了产生随机数的函数。素数发生器首先产生MAXSIZE个随机数保存在prime数组中,供随机算法使用。本程序中随机生成了10000对0/1串作为测试数据,即MAXSIZE=10000。”defs.h”定义了所用的常量。2、算法分析和比较运行PatternMatching可以发现:1)三个算法运行的时间处于同一数量级的,其中在大多数情况下MonteCarlo的算法都要快于KMP和La

5、sVegas算法,从理论上分析MonteCarlo算法的平均时间复杂度优于KMP算法,一般情况MonteCarlo时间复杂度为O(m+n),而KMP最好情况O(m+n),最坏为O(n*m)。LasVegs要比MonteCarlo稍微慢一点点,这是预料之中的,因为判断字符串相等耗费了额外的时间。KMP和LasVegs算法的平均时间复杂度大致相等。2)随机选取的素数大小直接影响了MonteCarlo算法的出错率。在模式串不是很长时,当素数大于某个数时我们可以发现出错率可以降到0。设模式串的最长长度为m,当随机产生的素数p>2m时,Y和X(j)的对p作模运算后的“指纹”Ip都要小于p,

6、此时p不可能可以整除

7、Y−X(j)

8、,因此不会出现当Ip(X(j))=Ip(y)时却有X(j)≠Y的误判情况,所以这种情况下MonteCarlo出错率为0。3)素数一定大时,MonteCarlo算法的出错率比理论值1/n要小的多,即当Ip(X(j))=Ip(y)时却有X(j)≠Y的情况很少。相反,当素数很小时,不同0/1序列对素数作模运算的结果相同的可能性增大,出错率相应地变大。4)当模式串的长度比主串小很多时,三个算法的执行时间明显快了,KMP和MonteCarlo算法的执行时间几乎相等。这也是比较容易理解的,模式串很短意味着它与主串匹配成功的可能性就大,算法不需要从头到尾扫描

9、一遍主串就可以在主串的较前面找到匹配串的位置,此外,模式串的长度小则说明耗费在扫描一遍模式串的时间就短,因此执行算法所花费的时间就少得多,KMP时间复杂度接近O(m+n),与MonteCarlo算法相等。8为了更好的说明问题,对p的大小和模式串的长度选取了几组不同的测试数据,以下为不同数据的运行结果(其中m,n分别为主串和模式串的长度,m,n,p都是在给定的区间上随机取值):1)第一组:素数p<2m,取,从测试结果可以看出MonteCarlo算法的出错率达到了20%以上,这是难以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。