标签: 视觉
所有带有此标签的文章 "视觉".
-
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
看看Shift-Window Attention。
-
SlowFast Networks for Video Recognition
更新于:多分支CNN,会不会有一些分支能学到更加相似的帧间变化?
-
Scalable Diffusion Models with Transformers
更新于:Diffusion Transformer.
-
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
更新于:使用大kernel DS卷积替代self-attention。字节新加坡的工作。
-
Segment Anything
更新于:Meta的SAM。
-
SDiT: Spiking Diffusion Model with Transformer
更新于:脉冲Diffusion Transformer,里面的Transformer的结构是RWKV的。
-
ConvUNeXt:An efficient convolution neural network for medical image segmentation
更新于:ConvNext + UNet,发在一个C刊上,借鉴学习一下,想想我的模块怎么设计。
-
ConvNext V2: Co-designing and Scaling ConvNets with Masked Autoencoders
更新于:ConvNext续作,引入了MAE。
-
A ConvNet for the 2020s
更新于:CVPR2022。Meta的工作,在ViT相关工作占视觉大头的情况下重构纯卷积的网络,并且取得了很好的效果。
-
LoCC工作总结
更新于:老板找到idea到交稿只用了两个星期,第一次完整跟着做完一整篇论文的工作。