标签: 加速器

所有带有此标签的文章 "加速器".

Prosperity: Accelerating Spiking Neural Networks via Product Sparsity

更新于: 11 Jun, 2025

HPCA在投的一篇SNN加速器文章，里面的“Product Sparsity”本质是减少相同内容的重复计算，和一般讨论的稀疏是两种不同的概念。
DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos

更新于: 23 May, 2025

利用CNN Layer的“线性”特征在帧之间做feature的差分，并且做了CUDA加速。和ViStream几乎一样的思路，能不能解决我们现在的问题？
Phi: Leveraging Pattern-based Hierarchical Sparsity for High-Efficiency Spiking Neural Networks

更新于: 21 May, 2025

ISCA 2025, 基于结构化稀疏的SNN加速器。如果直接用LUT存，可能会出现需要保存的稀疏pattern数量太多，显存占用太严重，所以通过预先校准一级“结构化稀疏”，将Online Spike Activation变成一级可以完全用LUT算的L1 Sparse和稀疏度非常高的L2 Sparse。模仿一下idea搬到GPU上来做？
SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for Benchmarking Spiking Neural Networks

更新于: 8 Mar, 2025

SNN部署的硬件设计or evaluation benchmark。
Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix Multiplication

更新于: 8 Mar, 2025

GEMM data mapping的介绍，主要是各种脉动阵列相关的加速器。
Optimizing Bit-Serial Matrix Multiplication for Reconfigurable Computing

更新于: 8 Mar, 2025

BISMO优化。
TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

更新于: 8 Mar, 2025

TVM。
A Hardware-Software Blueprint for Flexible Deep Learning Specialization

更新于: 8 Mar, 2025

VTA。
BISMO: A Scalable Bit Serial Matrix Multiplication Overlay for Reconfigurable Computing

更新于: 8 Mar, 2025

BISMO。

标签: 加速器

Prosperity: Accelerating Spiking Neural Networks via Product Sparsity

DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos

Phi: Leveraging Pattern-based Hierarchical Sparsity for High-Efficiency Spiking Neural Networks

SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for Benchmarking Spiking Neural Networks

Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix Multiplication

Optimizing Bit-Serial Matrix Multiplication for Reconfigurable Computing

TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

A Hardware-Software Blueprint for Flexible Deep Learning Specialization

BISMO: A Scalable Bit Serial Matrix Multiplication Overlay for Reconfigurable Computing