摘要:
为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题, 提出一种硬件加速方法。通过增加硬件加速单元, 将Xilinx ZYNQ的处理系统 PS端串行执行的软件编码转帧过程转移到可编程逻辑 PL端的数据通路中流水化并行执行。硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等。实验结果表明, 该方法在几乎不增加数据通路传输延迟的前提下, 可以消除软件编码和转帧过程的时间开销。在CIFAR-10图像分类的例子中, 与软件编码和转帧方法相比, 硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、14.9%的DSP以及 14.6%的功耗, 却能够实现约8.72倍的推理速度提升。
丁亚伟, 曹健, 李琦彬, 冯硕, 杨辰涛, 王源, 张兴. 适配PAICORE2.0的硬件编码转帧加速单元设计[J]. 北京大学学报自然科学版, 2024, 60(5): 786-798.
DING Yawei, CAO Jian, LI Qibin, FENG Shuo, YANG Chentao, WANG Yuan, ZHANG Xing.
Design of Acceleration Unit of Encoding and Frame Generation for PAICORE2.0
[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(5): 786-798.