标签: 视觉

所有带有此标签的文章 "视觉".

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

23 Jun, 2025

看看Shift-Window Attention。
SlowFast Networks for Video Recognition

更新于: 30 May, 2025

多分支CNN，会不会有一些分支能学到更加相似的帧间变化？
Scalable Diffusion Models with Transformers

更新于: 16 Mar, 2025

Diffusion Transformer.
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition

更新于: 8 Mar, 2025

使用大kernel DS卷积替代self-attention。字节新加坡的工作。
Segment Anything

更新于: 8 Mar, 2025

Meta的SAM。
SDiT: Spiking Diffusion Model with Transformer

更新于: 8 Mar, 2025

脉冲Diffusion Transformer，里面的Transformer的结构是RWKV的。
ConvUNeXt:An efficient convolution neural network for medical image segmentation

更新于: 8 Mar, 2025

ConvNext + UNet，发在一个C刊上，借鉴学习一下，想想我的模块怎么设计。
ConvNext V2: Co-designing and Scaling ConvNets with Masked Autoencoders

更新于: 8 Mar, 2025

ConvNext续作，引入了MAE。
A ConvNet for the 2020s

更新于: 8 Mar, 2025

CVPR2022。Meta的工作，在ViT相关工作占视觉大头的情况下重构纯卷积的网络，并且取得了很好的效果。
LoCC工作总结

更新于: 8 Mar, 2025

老板找到idea到交稿只用了两个星期，第一次完整跟着做完一整篇论文的工作。

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows