AndyBlocker

Building SNNs, LLMs and GPU kernels at Shanghai AI Laboratory.

社交链接:

最近文章

Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

更新于: 16 Jun, 2026

作者认为softmax有效是因为它将Attention矩阵的Frobenius范数控制在了O(sqrt(N))量级，从而稳定了训练，因此提出用多项式激活代替softmax、在期望意义上实现相似的范数控制。理论推完发现这文章没中，ICLR2026得分2222，一下子就不想看下去了。感觉实验和理论都不是很好。
AsyncT vllm适配、加速笔记（三）

更新于: 5 Jun, 2026

最后一篇，主要囊括了AsyncT算子最终的Hopper Specilized版本算子介绍、一些最终效果的breakdown，以及对接下来可以做的工作的一些分析。下一步要对训练做些优化了。
AsyncT vllm适配、加速笔记（二）

更新于: 26 May, 2026

加速第二篇，主要是在CUDA Kernel上做更多的优化，反思之前的Benchmarking问题等。
AsyncT vllm适配、加速笔记（一）

更新于: 25 May, 2026

笔记的第一部分，主要覆盖了一些preliminaries，基础的vllm接入流程，以及简单的triton算子实现和最基础版本的CUDA算子实现。
Attention Residuals

更新于: 18 Mar, 2026

Kimi团队关于Residual Addition的扩展。看起来某种意义上算是复杂的拓扑结构，说不定在现在的硬件上会有优势？
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

更新于: 2 Mar, 2026

Qwen团队，分析LLM中的Outliers是如何产生的、有什么影响。
2025

更新于: 19 Jan, 2026

2025.
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

更新于: 30 Dec, 2025

开始做SNN-LLM的QAT/PTQ了，重新读一下之前看过的一些Activation量化的工作。
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

更新于: 3 Dec, 2025

NIPS2025 Best Paper。Qwen的。实验实在是过于solid了，真有钱啊。
Nested Learning: The Illusion of Deep Learning Architectures

更新于: 10 Nov, 2025

谷歌新作，号称“深度学习新范式”。提到了异步，具体指的是让模型靠近输入的位置的更新频率高于靠后的位置，这个思路和之前Sakana AI的那个文章有点像。但文章里面的东西感觉全都是Fast Weight Programming的内容，arxiv的文章全文也一直没挂出来。

全部文章

AndyBlocker

最近文章

Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

AsyncT vllm适配、加速笔记（三）

AsyncT vllm适配、加速笔记（二）

AsyncT vllm适配、加速笔记（一）

Attention Residuals

A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

2025

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Nested Learning: The Illusion of Deep Learning Architectures