Research

Dynamic Neural Networks

Latency-aware Unified Dynamic Networks for Efficient Image Recognition[Code]

Yizeng Han, Zeyu Liu, Zhihang Yuan, Yifan Pu, Chaofei Wang, Shiji Song, Gao Huang.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024.

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition[Code]

Yulin Wang, Haoji Zhang, Yang Yue, Shiji Song, Chao Deng, Junlan Feng, Gao Huang.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024.

Dynamic Perceiver for Efficient Visual Recognition[Code]

Yizeng Han, Dongchen Han, Zeyu Liu, Yulin Wang, Xuran Pan, Yifan Pu, Chao Deng, Junlan Feng, Shiji Song, Gao Huang.

IEEE/CVF International Conference on Computer Vision (ICCV), 2023.

Glance and Focus Networks for Dynamic Visual Recognition[Code]

Gao Huang, Yulin Wang, Kangchen Lv, Haojun Jiang, Wenhui Huang, Pengfei Qi, Shiji Song.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023.

Latency-aware Spatial-wise Dynamic Networks

Yizeng Han, Zhihang Yuan, Yifan Pu, Chenhao Xue, Shiji Song, Guangyu Sun, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2022.

Learning to Weight Samples for Dynamic Early-exiting Networks

Yizeng Han, Yifan Pu, Zihang Lai, Chaofei Wang, Shiji Song, Junfen Cao, Wenhui Huang, Chao Deng, Gao Huang.

European Conference on Computer Vision (ECCV), 2022.

Dynamic Neural Networks: A Survey[Video]

Yizeng Han, Gao Huang, Shiji Song, Le Yang, Honghui Wang, Yulin Wang.

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021.

AdaFocus: Adaptive Focus for Efficient Video Recognition[Code][ Project Page][Video]

Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang.

IEEE/CVF International Conference on Computer Vision (ICCV Oral), 2021.

Revisiting Locally Supervised Learning: an Alternative to End-to-end Training[Code]

Yulin Wang, Zanlin Ni, Shiji Song, Le Yang, Gao Huang.

International Conference on Learning Representations (ICLR), 2021.

Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length[Code]

Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2021.

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition

Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2021.

Resolution Adaptive Networks for Efficient Inference[Code]

Le Yang, Yizeng Han, Xi Chen, Shiji Song, Jifeng Dai, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification[Code]

Yulin Wang, Kangchen Lv, Rui Huang, Shiji Song, Le Yang, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2020.

Implicit Semantic Data Augmentation for Deep Networks[Code]

Yulin Wang, Xuran Pan, Shiji Song, Hong Zhang, Cheng Wu, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2019.

Deep Networks with Stochastic Depth[Code]

Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger.

European Conference on Computer Vision (ECCV Spotlight), 2016.

Network Architecture for Foundation Models

Cross-modal Adapter for Vision–language Retrieval

Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Shiji Song, Gao Huang.

Pattern Recognition, 2025.

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning[Code]

Chaoqun Du, Yizeng Han, Gao Huang.

International Conference on Machine Learning (ICML), 2024.

Bridging the Divide: Reconsidering Softmax and Linear Attention[Code][Video]

Dongchen Han, Yifan Pu, Zhuofan Xia, Yizeng Han, Xuran Pan, Xiu Li, Jiwen Lu, Shiji Song, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2024.

Demystify Mamba in Vision: A Linear Attention Perspective[Code][Video]

Dongchen Han, Ziyi Wang, Zhuofan Xia, Yizeng Han, Yifan Pu, Chunjiang Ge, Jun Song, Shiji Song, Bo Zheng, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2024.

GRA: Detecting Oriented Objects through Group-wise Rotating and Attention

Jiangshan Wang, Yifan Pu, Yizeng Han, Jiayi Guo, Yiru Wang, Xiu Li, Gao Huang.

European Conference on Computer Vision (ECCV), 2024.

Agent Attention: On the Integration of Softmax and Linear Attention[Code]

Dongchen Han, Tianzhu Ye, Yizeng Han, Zhuofan Xia, Shiji Song, Gao Huang.

European Conference on Computer Vision (ECCV), 2024.

Learning 1D Causal Visual Representation with De-focus Attention Networks[Code]

Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian, Xuan Luo, Gao Huang, Hongsheng Li, Yu Qiao, Jie Zhou, Jifeng Dai

Neural Information Processing Systems (NeurIPS), 2024.

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process[Code]

Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu.

International Conference on Learning Representations (ICLR), 2024.

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution[Code]

Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2024.

Deep Incubation: Training Large Models by Divide-and-Conquering[Code]

Zanlin Ni, Yulin Wang, Jiangwei Yu, Haojun Jiang, Yue Cao, Gao Huang.

IEEE/CVF International Conference on Computer Vision (ICCV), 2023.

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

Yulin Wang, Yang Yue, Rui Lu, Tianjiao Liu, Zhao Zhong, Shiji Song, Gao Huang.

IEEE/CVF International Conference on Computer Vision (ICCV), 2023.

FLatten Transformer: Vision Transformer using Focused Linear Attention[Code][Video]

Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang.

IEEE/CVF International Conference on Computer Vision (ICCV), 2023.

Adapting Across Domains via Target-Oriented Transferable Semantic Augmentation Under Prototype Constraint[Code]

Mixue Xie, Shuang Li, Kaixiong Gong, Yulin Wang, Gao Huang.

International Journal of Computer Vision (IJCV), 2023.

Learning Specialized Activation Functions for Physics-Informed Neural Networks

Honghui Wang, Lu Lu, Shiji Song, Gao Huang.

Communications in Computational Physics, 2023.

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention[Code]

Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang.

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

Budgeted Training for Vision Transformer

Zhuofan Xia, Xuran Pan, Xuan Jin, Yuan He, Hui Xue, Shiji Song, Gao Huang.

International Conference on Learning Representations (ICLR), 2023.

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information

Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie Zhou, Jifeng Dai.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

Siamese Image Modeling for Self-supervised Vision Representation Learning[Code]

Chenxin Tao, Xizhou Zhu, Weijie Su, Gao Huang, Bin Li, Jie Zhou, Yu Qiao, Xiaogang Wang, Jifeng Dai

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

Decoupled Prioritized Resampling for Offline RL[Code]

Yang Yue, Bingyi Kang, Xiao Ma, Qisen Yang, Gao Huang, Shiji Song, Shuicheng Yan.

IEEE Transactions on Neural Networks and Learning Systems, 2023.

Value-consistent Representation Learning for Data-Efficient Reinforcement Learning

Yang Yue, Bingyi Kang, Zhongwen Xu, Gao Huang, Shuicheng Yan.

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI Oral), 2023.

On the Integration of Self-Attention and Convolution[Code]

Xuran Pan, Chunjiang Ge, Rui Lu, Shiji Song, Guanfu Chen, Zeyi Huang, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

Haojun Jiang, Yuanze Lin, Dongchen Han, Shiji Song, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

The High Separation Probability Assumption for Semi-Supervised Learning

Gao Huang, Chaoqun Du.

IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022.

AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition

Yulin Wang, Yang Yue, Xinhong Xu, Ali Hassani, Victor Kulikov, Nikita Orlov, Shiji Song, Humphrey Shi, Gao Huang.

European Conference on Computer Vision (ECCV), 2022.

Adafocus v2: End-to-end training of spatial dynamic networks for video recognition

Yulin Wang, Yang Yue, Yuanze Lin, Haojun Jiang, Zihang Lai, Victor Kulikov, Nikita Orlov, Humphrey Shi, Gao Huang.

Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

Efficient knowledge distillation from model checkpoints

Chaofei Wang, Qisen Yang, Rui Huang, Shiji Song, Gao Huang.

Neural Information Processing Systems (NeurIPS Spotlight), 2022.

Domain Adaptation via Prompt Learning

Chunjiang Ge, Rui Huang, Mixue Xie, Zihang Lai, Shiji Song, Shuang Li, Gao Huang.

IEEE Transactions on Neural Networks and Learning Systems, 2022.

Vision Transformer with Deformable Attention[Code]

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR Best Paper Finalist), 2022.

Exploring the Equivalence of Siamese Self-supervised Learning via A Unified Gradient Framework[Code]

Chenxin Tao, Honghui Wang, Xizhou Zhu, Jiahua Dong, Shiji Song, Gao Huang, Jifeng Dai.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

CondenseNet V2: Sparse Feature Reactivation for Deep Networks[Code]

Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tian.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

Condensenet v2: Sparse Feature Reactivation for Deep Networks

Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tian.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

Large scale air pollution prediction with deep convolutional networks

Gao Huang, Chunjiang Ge, Tianyu Xiong, Shiji Song, Le Yang, Baoxian Liu, Wenjun Yin and Cheng Wu.

Science China Information Sciences, 2021.

CondenseNet: An Efficient DenseNet using Learned Group Convolutions[Code][Video]

Gao Huang, Shichen Liu, Laurens van der Maaten, Kilian Q. Weinberger.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR Spotlight), 2018.

Multi-Scale Dense Convolutional Networks for Resource Efficient Image Classification[Code]

Gao Huang, Danlu Chen, Tianhong Li, Felix Wu, Laurens van der Maaten, Kilian Q. Weinberger.

International Conference on Learning Representations (ICLR Oral), 2018.

Densely Connected Convolutional Networks[Code][Video]

Gao Huang, Zhuang Liu, Laurens Van Der Maaten, Kilian Weinberger.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR Best Paper), 2017.

Large Models and Applications

DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints[Code][ Project Page]

Andrew Zhao, Quentin Xu, Matthieu Lin, Shenzhi Wang, Yong-jin Liu, Zilong Zheng, Gao Huang.

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI Oral), 2025.

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang.

The Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL), 2025.

Mask Grounding for Referring Image Segmentation[Code][ Project Page]

Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

ExpeL: LLM Agents Are Experiential Learners[Code][ Project Page]

Andrew Zhao, Daniel Huang, Quentin Xu, Matthieu Lin, Yong-Jin Liu, Gao Huang.

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI Oral), 2024

PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents

Qisen Yang, Zekun Wang, Honghui Chen, Shenzhi Wang, Yifan Pu, Xin Gao, Wenhao Huang, Shiji Song, Gao Huang.

Proceedings of the Association for Computational Linguistics (ACL), 2024.

GSVA: Generalized Segmentation via Multimodal Large Language Models[Code]

Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang.

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

Boosting LLM Agents with Recursive Contemplation for Effective Deception Handling (Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation)[Code][ Project Page]

Shenzhi Wang, Chang Liu, Zilong Zheng, Siyuan Qi, Shuo Chen, Qisen Yang, Andrew Zhao, Chaofei Wang, Shiji Song, Gao Huang.

Proceedings of the Association for Computational Linguistics (ACL), 2024.

Contrastive Language-Image Pre-Training with Knowledge Graphs

Xuran Pan, Tianzhu Ye, Dongchen Han, Shiji Song, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2022.

Supervised Word Mover's Distance[Code]

Gao Huang, Chuan Guo, Matt Kusner, Yu Sun, Fei Sha, Kilian Weinberger.

Neural Information Processing Systems (NIPS Oral), 2016.

Visual Generative Models

Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias

Rui Lu, Runzhe Wang, Kaifeng Lyu, Xitai Jiang, Gao Huang, Mengdi Wang.

International Conference on Learning Representations (ICLR), 2025.

Differential Transformer

Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei.

International Conference on Learning Representations (ICLR Oral), 2025.

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis[Code]

Zanlin Ni, Yulin Wang, Renping Zhou, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Shiji Song, Yuan Yao, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation[Code]

Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang.

European Conference on Computer Vision (ECCV), 2024.

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis[Code]

Zanlin Ni, Yulin Wang, Renping Zhou, Yizeng Han, Jiayi Guo, Zhiyuan Liu, Yuan Yao, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2024.

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering[Code][ Project Page]

Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan.

European Conference on Computer Vision (ECCV), 2024.

FaceCLIP: Facial Image-to-Video Translation via A Brief Text Description

Jiayi Guo, Hayk Manukyan, Chenyu Yang, Chaofei Wang, Levon Khachatryan, Shant Navasardyan, Shiji Song, Humphrey Shi, Gao Huang.

IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2024.

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models[Code][ Project Page][Video]

Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Humphrey Shi, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

Zero-shot Generative Model Adaptation via Image-specific Prompt Learning[Code][Video]

Jiayi Guo, Chaofei Wang, You Wu, Eric Zhang, Kai Wang, Xingqian Xu, Shiji Song, Humphrey Shi, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

Assessing a Single Image in Reference-Guided Image Synthesis

Jiayi Guo, Chaoqun Du, Jiangshan Wang, Huijuan Huang, Pengfei Wan, Gao Huang.

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI Oral), 2022.

3D Perception and Spatial Intelligence

DenseGrounding: Improving Dense Language-Vision Semantics for Ego-centric 3D Visual Grounding

Henry Zheng, Hao Shi, Qihang Peng, Yong Xien Chng, Rui Huang, Yepeng Weng, Zhongchao Shi, Gao Huang.

International Conference on Learning Representations (ICLR), 2025.

GridMix: Exploring Spatial Modulation for Neural Fields in PDE Modeling

Honghui Wang, Shiji Song, Gao Huang.

International Conference on Learning Representations (ICLR Oral), 2025.

Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model

Haojun Jiang, Zhenguo Sun, Ning Jia, Meng Li, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang.

Medical Image Computing and Computer Assisted Intervention (MICCAI), 2024.

Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data[ Project Page][Video]

Rui Huang, Henry Zheng, Yan Wang, Marco Pavone, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2024.

Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels[Code][ Project Page][Video]

Rui Huang, Songyou Peng, Ayça Takmaz, Federico Tombari, Marc Pollefeys, Shiji Song, Gao Huang, Francis Engelmann

European Conference on Computer Vision (ECCV), 2024.

Joint Representation Learning for Text and 3D Point Cloud

Rui Huang, Xuran Pan, Henry Zheng, Haojun Jiang, Zhifeng Xie, Cheng Wu, Shiji Song, Gao Huang.

Pattern Recognition (PR), 2023.

On the Integration of Self-Attention and Convolution[Code]

Xuran Pan, Zihang Lai, Shiji Song, Gao Huang.

European Conference on Computer Vision (ECCV), 2022.

3D Object Detection with Pointformer[Code]

Xuran Pan, Zhuofan Xia, Shiji Song, Li Erran Li, Gao Huang.

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

Reinforcement Learning

STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning[Code]

Weipu Zhang, Gang Wang, Jian Sun, Yetian Yuan, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2023.

Boosting Offline Reinforcement Learning with Action Preference Query

Qisen Yang, Shenzhi Wang, Matthieu Gaetan Lin, Shiji Song, Gao Huang.

Proceedings of Machine Learning Research (PMLR), 2023.

Leveraging reward consistency for interpretable feature discovery in reinforcement learning

Qisen Yang, Huanqian Wang, Mukun Tong, Wenjie Shi, Gao Huang, Shiji Song.

IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023.

Hundreds guide millions: Adaptive offline reinforcement learning with expert guidance

Qisen Yang, Shenzhi Wang, Qihang Zhang, Gao Huang, Shiji Song.

IEEE Transactions on Neural Networks and Learning Systems, 2023.

Causal Intervention for Human Trajectory Prediction with Cross Attention Mechanism

Chunjiang Ge, Shiji Song and Gao Huang

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2023.

Train once, get a family: State-adaptive balances for offline-to-online reinforcement learning[Code][ Project Page]

Shenzhi Wang, Qisen Yang, Jiawei Gao, Matthieu Gaetan Lin, Hao Chen, Liwei Wu, Ning Jia, Shiji Song, Gao Huang.

Neural Information Processing Systems (NeurIPS Spotlight), 2023.

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL[Code][ Project Page]

Yang Yue, Rui Lu, Bingyi Kang, Shiji Song, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2023.

A Mixture Of Surprises for Unsupervised Reinforcement Learning[Code]

Andrew Zhao, Matthieu Lin, Yangguang Li, Yong-jin Liu, Gao Huang.

Neural Information Processing Systems 35 (NeurIPS), 2022.

Provable General Function Class Representation Learning in Multitask Bandits and MDPs

Rui Lu, Andrew Zhao, Simon S Du, Gao Huang.

Neural Information Processing Systems 35 (NeurIPS Spotlight ), 2022.

Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning[Code]

Wenjie Shi, Shiji Song, Hui Wu, Ya-Chu Hsu, Cheng Wu, Gao Huang.

Neural Information Processing Systems (NeurIPS), 2019.

Data/Compute Efficient Training of Deep Models

Research

Latency-aware Unified Dynamic Networks for Efficient Image Recognition[Code]

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition[Code]

Dynamic Perceiver for Efficient Visual Recognition[Code]

Glance and Focus Networks for Dynamic Visual Recognition[Code]

Dynamic Neural Networks: A Survey[Video]

AdaFocus: Adaptive Focus for Efficient Video Recognition[Code][ Project Page][Video]

Revisiting Locally Supervised Learning: an Alternative to End-to-end Training[Code]

Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length[Code]

Resolution Adaptive Networks for Efficient Inference[Code]

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification[Code]

Implicit Semantic Data Augmentation for Deep Networks[Code]

Deep Networks with Stochastic Depth[Code]

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning[Code]

Bridging the Divide: Reconsidering Softmax and Linear Attention[Code][Video]

Demystify Mamba in Vision: A Linear Attention Perspective[Code][Video]

Agent Attention: On the Integration of Softmax and Linear Attention[Code]

Learning 1D Causal Visual Representation with De-focus Attention Networks[Code]

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process[Code]

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution[Code]

Deep Incubation: Training Large Models by Divide-and-Conquering[Code]

FLatten Transformer: Vision Transformer using Focused Linear Attention[Code][Video]

Adapting Across Domains via Target-Oriented Transferable Semantic Augmentation Under Prototype Constraint[Code]

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention[Code]

Siamese Image Modeling for Self-supervised Vision Representation Learning[Code]

Decoupled Prioritized Resampling for Offline RL[Code]

On the Integration of Self-Attention and Convolution[Code]

Vision Transformer with Deformable Attention[Code]

Exploring the Equivalence of Siamese Self-supervised Learning via A Unified Gradient Framework[Code]

CondenseNet V2: Sparse Feature Reactivation for Deep Networks[Code]

CondenseNet: An Efficient DenseNet using Learned Group Convolutions[Code][Video]

Multi-Scale Dense Convolutional Networks for Resource Efficient Image Classification[Code]

Densely Connected Convolutional Networks[Code][Video]

DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints[Code][ Project Page]

Mask Grounding for Referring Image Segmentation[Code][ Project Page]

ExpeL: LLM Agents Are Experiential Learners[Code][ Project Page]

GSVA: Generalized Segmentation via Multimodal Large Language Models[Code]

Boosting LLM Agents with Recursive Contemplation for Effective Deception Handling (Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation)[Code][ Project Page]

Supervised Word Mover's Distance[Code]

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis[Code]

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation[Code]

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis[Code]

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering[Code][ Project Page]

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models[Code][ Project Page][Video]

Zero-shot Generative Model Adaptation via Image-specific Prompt Learning[Code][Video]

Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data[ Project Page][Video]

Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels[Code][ Project Page][Video]

On the Integration of Self-Attention and Convolution[Code]

3D Object Detection with Pointformer[Code]

STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning[Code]

Train once, get a family: State-adaptive balances for offline-to-online reinforcement learning[Code][ Project Page]

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL[Code][ Project Page]

A Mixture Of Surprises for Unsupervised Reinforcement Learning[Code]

Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning[Code]

EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training.[Code]

Probabilistic Contrastive Learning for Long-Tailed Visual Recognition[Code]

InfoPro: Locally Supervised Deep Learning by Maximizing Information Propagation[Code]

Adaptive Rotated Convolution for Rotated Object Detection[Code]

Regularizing Deep Networks with Semantic Data Augmentation[Code]

Searching Parameterized AP Loss for Object Detection[Code]

Improved Techniques for Training Adaptive Deep Networks[Code]

Snapshot Ensembles: Train 1, Get M for Free[Code]