AndyBlocker
RSS FeedBuilding SNNs, LLMs and GPU kernels at Shanghai AI Laboratory.
最近文章
-
AsyncT vllm适配、加速笔记(二)
更新于:加速第二篇,主要是在CUDA Kernel上做更多的优化,反思之前的Benchmarking问题等。
-
AsyncT vllm适配、加速笔记(一)
更新于:笔记的第一部分,主要覆盖了一些preliminaries,基础的vllm接入流程,以及简单的triton算子实现和最基础版本的CUDA算子实现。
-
Attention Residuals
更新于:Kimi团队关于Residual Addition的扩展。看起来某种意义上算是复杂的拓扑结构,说不定在现在的硬件上会有优势?
-
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
更新于:Qwen团队,分析LLM中的Outliers是如何产生的、有什么影响。
-
2025
更新于:2025.
-
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models
更新于:开始做SNN-LLM的QAT/PTQ了,重新读一下之前看过的一些Activation量化的工作。
-
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
更新于:NIPS2025 Best Paper。Qwen的。实验实在是过于solid了,真有钱啊。
-
Nested Learning: The Illusion of Deep Learning Architectures
更新于:谷歌新作,号称“深度学习新范式”。提到了异步,具体指的是让模型靠近输入的位置的更新频率高于靠后的位置,这个思路和之前Sakana AI的那个文章有点像。但文章里面的东西感觉全都是Fast Weight Programming的内容,arxiv的文章全文也一直没挂出来。
-
Kimi Linear: An Expressive, Efficient Attention Architecture
更新于:Kimi Linear,有比较详细的实验&Scale Up。有Linear Attention可以去掉RoPE这个结论还是比较惊喜的。
-
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
更新于:AI Lab关于”广义“LLM推理加速的工作,包括Linear Attention,Sparse Attention,Diffusion LLM,Applications等。