资源描述:
《浮点转定点运算》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、浮点转定点运算一DSP定点算数运算1数的定标在定点DSP芯片中,采用定点数进行数值运算,其操作数一般采用整型数来表示。一个整型数的最大表示范围取决于DSP芯片所给定的字长,一般为16位或24位。显然,字长越长,所能表示的数的范围越大,精度也越高。如无特别说明,本书均以16位字长为例。DSP芯片的数以2的补码形式表示。每个16位数用一个符号位来表示数的正负,0表示数值为正,l则表示数值为负。其余15位表示数值的大小。因此,二进制数0010000000000011b=8195二进制数1111111111111100
2、b=-4对DSP芯片而言,参与数值运算的数就是16位的整型数。但在许多情况下,数学运算过程中的数不一定都是整数。那么,DSP芯片是如何处理小数的呢?应该说,DSP芯片本身无能为力。那么是不是说DSP芯片就不能处理各种小数呢?当然不是。这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。这就是数的定标。通过设定小数点在16位数中的不同位置,就可以表示不同大小和不同精度的小数了。数的定标有Q表示法和S表示法两种。表1.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。从表1.1
3、可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。例如,16进制数2000H=8192,用Q0表示16进制数2000H=0.25,用Q15表示但对于DSP芯片来说,处理方法是完全相同的。从表1.1还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。Q越大,数值范围越小,但精度越高;相反,Q越小,数值范围越大,但精度就越低。例如,Q0的数值范围是-32768到+32767,其精度为1,而Q15的数值范围为-1到0.9999695,精度为1/32768=0.00003051。因此,
4、对定点数而言,数值范围与精度是一对矛盾,一个变量要想能够表示比较大的数值范围,必须以牺牲精度为代价;而想精度提高,则数的表示范围就相应地减小。在实际的定点算法中,为了达到最佳的性能,必须充分考虑到这一点。浮点数与定点数的转换关系可表示为:浮点数(x)转换为定点数(xq):xq=(int)x*2Q定点数(xq)转换为浮点数(x):x=(float)xq*2-Q例如,浮点数x=0.5,定标Q=15,则定点数xq=L0.5*32768J=16384,式中LJ表示下取整。反之,一个用Q=15表示的定点数16384,其浮
5、点数为16384*2^-15=16384/32768=0.5。浮点数转换为定点数时,为了降低截尾误差,在取整前可以先加上0.5。表1.1Q表示、S表示及数值范围Q表示S表示十进制数表示范围Q15S0.15-1≤x≤0.9999695Q14S1.14-2≤x≤1.9999390Q13S2.13-4≤x≤3.9998779Q12S3.12-8≤x≤7.9997559Q11S4.11-16≤x≤15.9995117Q10S5.10-32≤x≤31.9990234Q9S6.9-64≤x≤63.9980469Q8S7.8
6、-128≤x≤127.9960938Q7S8.7-256≤x≤255.9921875Q6S9.6-512≤x≤511.9804375Q5S10.5-1024≤x≤1023.96875Q4S11.4-2048≤x≤2047.9375Q3S12.3-4096≤x≤4095.875Q2S13.2-8192≤x≤8191.75Q1S14.1-16384≤x≤16383.5Q0S15.0-32768≤x≤327672高级语言:从浮点到定点我们在编写DSP模拟算法时,为了方便,一般都是采用高级语言(如C语言)来编写模拟程序
7、。程序中所用的变量一般既有整型数,又有浮点数。如例1.1程序中的变量i是整型数,而pi是浮点数,hamwindow则是浮点数组。例1.1256点汉明窗计算inti;floatpi=3.14159;floathamwindow[256];for(i=0;i<256;i++)hamwindow[i]=0.54-0.46*cos(2.0*pi*i/255);如果我们要将上述程序用某种足点DSP芯片来实现,则需将上述程序改写为DSP芯片的汇编语言程序。为了DSP程序调试的方便及模拟定点DSP实现时的算法性能,在编写DS
8、P汇编程序之前一般需将高级语言浮点算法改写为高级语言定点算法。下面我们讨论基本算术运算的定点实现方法。2.1加法/减法运算的C语言定点摸拟设浮点加法运算的表达式为:floatx,y,z;z=x+y;将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标temp=x+temp;z=temp>>(Qx-Qz),若Qx>=Qzz=temp<<(Qz-Qx),若Qx<=