浮点矩阵相乘ip核并行改进的设计与实现

ID：496548

大小：217.50 KB

页数：5页

时间：2017-08-18

资源描述：

《浮点矩阵相乘ip核并行改进的设计与实现》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、浮点矩阵相乘IP核并行改进的设计与实现摘要：基于Altera浮点IP核实现浮点矩阵相乘运算时，由于矩阵阶数的增大，造成消耗的器件资源虽增加但系统性能反而下降的问题，针对现有IP核存在数据加载不连贯、存储带宽不均匀的不足，提出采用并行化数据存储、依据查找表加载数据和处理数据的方式对IP核进行改进。然后将改进的浮点矩阵运算在FPGA中实现，经过Quartus、Matlab软件联合仿真并进行结果比对，其误差不超过万分之一，且节省了器件资源、提升了系统性能。仿真结果表明该设计可行，有利于提高诸多高性能领域浮点矩阵的运算速度。关键词：浮点矩阵相

2、乘；嵌入式；IP核；现场可编程门阵列嵌入式计算作为新一代计算系统的高效运行方式，应用于多个高性能领域，如阵列信号处理、核武器模拟、计算流体动力学等。在这些科学计算中，需要大量的浮点矩阵运算。而目前已实现的浮点矩阵运算是直接使用VHDL语言编写的浮点矩阵相乘处理单元[1]，其关键技术是乘累加单元的设计，这样设计的硬件，其性能依赖于设计者的编程水平。此外，FPGA厂商也推出了一定规模的浮点矩阵运算IP核[2]，虽然此IP核应用了本厂家的器件，并经过专业调试和硬件实测，性能稳定且优于手写代码，但仍可对其进行改进，以进一步提高运算速度。1

3、Altera浮点矩阵相乘IP核原理 Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT，是在Quartus软件9.1版本以上的环境中使用，能够进行一定规模的浮点矩阵相乘运算，包含A、B矩阵数据输入，数据浮点乘加，数据缓存及相加输出四大部分。其中最能体现浮点计算性能的是浮点乘加部分，而周围的控制电路及输出则影响到系统的最高时钟频率，间接地影响系统整体性能。整个矩阵相乘电路原理是将输入的单路数据（A、B矩阵共用数据线），通过控制器产生A、B矩阵地址信号，控制着A矩阵数据输出和B矩阵数据输出，并将数据并行分段

4、输出到浮点乘加模块进行乘加运算，之后串行输出到一个缓存器模块中，再以并行方式输出到浮点相加模块，最后获得计算结果。从其原理可以看出，在数据输入输出方面仍有许多可改进的地方。2IP核存在的缺陷及改进2.1存在缺陷 (1)输入数据带宽的不均衡性。在矩阵A、B的数据输入时，Altera的IP核将A矩阵数据存于M144K的BlockRAM中，而将B矩阵数据存于M9K的BlockRAM中，导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽，并需要一定数量的寄存器组使A矩阵数据带宽能够匹配于B矩阵数据带宽。由此可见，A、B矩阵数据的存储受到器件限

5、制和存储约束，同时由于在浮点乘加模块的输入端（A、B矩阵数据）带宽不同，造成A矩阵数据的输入需要额外的处理时间。 (2)加载数据的不连贯性。在矩阵数据加载时，IP核通过将数据分段成等分的几部分，用于向量相乘。由于矩阵A存储带宽窄需要4步寄存（由Blocks决定），在第3个周期时才加载数据B用于计算，送到一个FIFO中存储；在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分计算，最后当计算到第15个周期时，才可通过浮点相加，计算出矩阵C的第一个值，之后计算出矩阵C的其他值C11。从上述结构可见，在分段相乘之后，采用先对一个F

6、IFO进行存储，存满后再对下一个数据FIFO进行存储，造成时间上浪费过多。2.2设计改进鉴于上述缺陷，在输入A、B矩阵的存储方式上，进行串行输入到并行输入的改进，使得两个矩阵能同步输入到浮点乘加模块。在数据加载方式上，将A矩阵用3个周期加载完毕，再处理相乘运算；将分段相乘结果进行直接存储相加，获得C矩阵的第一个值，缩减运算时间。设计的改进框图如图1所示。将A、B矩阵数据加载模块设计成同步加载的方式，即在loadaa为高电平时，对A的第一组数据进行初始化，加载到双口RAM模块存储；在loadbb为高电平时，加载B矩阵的数据，也

7、进行双口RAM存储。然后依据ROM存储的地址信号表，在控制模块的控制下输出A、B矩阵地址相对应的数据，进行浮点乘加运算，之后串行缓存，并行输出到浮点相加模块，进行输出。计算时序如图2所示。在时序上要求初始化加载A矩阵的第一行数据A1、A2、A3之后，加载B矩阵的第一列数据，当分段E1加载后立即进行分段第一组数据相乘A1×E1。以此类推，当加载A的第二行数据时，即可立即与B矩阵的第一列数据相乘。总体而言，只需要在ROM模块中存储一定的地址信号，即可使浮点乘加模块的输入端具有并行连贯的数据输入，缩短了运算时间。3浮点矩阵相乘实现3.1

8、模块总体实现按照上述改进方案，ROM地址表在控制模块的控制下产生一组地址信号控制双口RAM组进行并行输出，保证了浮点乘加模块计算的准确性。其中控制模块为设计的关键部分，用于产生所有模块的控制信号，实现

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

浮点矩阵相乘ip核并行改进的设计与实现

浮点矩阵相乘ip核并行改进的设计与实现

相关文章

相关标签