publications | Qi Dai

2025

ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning

Ziqiang Xu, Qi Dai, Tian Xie, Yifan Yang, Kai Qiu, DongDong Chen, and 2 more authors

arXiv preprint arXiv:2505.15447, 2025

arXiv Code
Phi-4-Mini Technical Report: Compact yet powerful multimodal language models via mixture-of-loras

Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, and 68 more authors

arXiv preprint arXiv:2503.01743, 2025

arXiv Code
StableAnimator: High-quality identity-preserving human image animation

Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, and 1 more author

In CVPR , 2025

PDF Code Website
FloVD: Optical flow meets video diffusion model for enhanced camera-controlled video synthesis

Wonjoon Jin, Qi Dai, Chong Luo, Seung-Hwan Baek, and Sunghyun Cho

In CVPR , 2025

PDF Code Website
HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion

Ding Ding, Yueming Pan, Ruoyu Feng, Qi Dai, Kai Qiu, Jianmin Bao, and 2 more authors

In CVPR , 2025

PDF
Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

Yifei Dong , Fengyi Wu, Sanjian Zhang, Guangyu Chen , Yuzhi Hu, Masumi Yano, and 5 more authors

In CVPRW , 2025

Awareded PDF

The 4th Anti-UAV Workshop & Challenge Best Paper Award
FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

Jiayu Wang, Yue Yu, Jingjing Chen, Qi Dai, and Yu-Gang Jiang

In AAAI , 2025

PDF
UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval

Haoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, and 3 more authors

In WACV , 2025

PDF

2024

REDUCIO! Generating 1024x1024 Video within 16 Seconds using Extremely Compressed Motion Latents

Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, and 2 more authors

arXiv preprint arXiv:2411.13552, 2024

arXiv Code
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation

Weiquan Huang , Aoqi Wu, Yifan Yang, Xufang Luo, Yuqing Yang , Liang Hu, and 5 more authors

arXiv preprint arXiv:2411.04997, 2024

arXiv Code Website
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu , Ji Li, and 5 more authors

In NeurIPS , 2024

PDF
Human-aware vision-and-language navigation: Bridging simulation to reality with dynamic human interactions

Heng Li , Minghan Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, and 3 more authors

In NeurIPS , 2024

PDF Code Website
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion

Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, and 3 more authors

arXiv preprint arXiv:2405.20325, 2024

arXiv Website
MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

Yanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin, Tao Yang, and 9 more authors

In CVPR , 2024

PDF Supp Website
MotionEditor: Editing Video Motion via Content-Aware Diffusion

Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, and 1 more author

In CVPR , 2024

PDF Supp Code Website
SimDA: Simple Diffusion Adapter for Efficient Video Generation

Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, and Yu-Gang Jiang

In CVPR , 2024

PDF Supp Code Website
BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition

Yuxuan Zhou, Xudong Yan, Zhi-Qi Cheng, Yan Yan, Qi Dai, and Xian-Sheng Hua

In CVPR , 2024

PDF Supp Code
ARTV: Auto-Regressive Text-to-Video Generation with Diffusion Models

Wenming Weng, Ruoyu Feng , Yanhui Wang, Qi Dai, Wang Chunyu, Dacheng Yin, and 7 more authors

In CVPRW , 2024

PDF Supp Website
A survey on video diffusion models

Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, and 2 more authors

ACM Computing Surveys, 2024

PDF Website
The Role of ViT Design and Training in Robustness Towards Common Corruptions

Rui Tian, Zuxuan Wu, Qi Dai, Micah Goldblum, Han Hu, and Yu-Gang Jiang

IEEE Transactions on Multimedia, 2024

PDF

2023

SVFormer: Semi-supervised Video Transformer for Action Recognition

Zhen Xing, Qi Dai, Han Hu, Jingjing Chen, Zuxuan Wu, and Yu-Gang Jiang

In CVPR , 2023

PDF Code
ResFormer: Scaling ViTs with Multi-Resolution Training

Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, and Yu-Gang Jiang

In CVPR , 2023

PDF
On Data Scaling in Masked Image Modeling

Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, and 1 more author

In CVPR , 2023

PDF Supp
HiViT: A simpler and more efficient design of hierarchical vision transformer

Xiaosong Zhang, Yunjie Tian, Lingxi Xie, Wei Huang, Qi Dai, Qixiang Ye, and 1 more author

In ICLR , 2023

PDF Code
Implicit Temporal Modeling with Learnable Alignment for Video Recognition

Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, and Yu-Gang Jiang

In ICCV , 2023

PDF Supp Code Slides
All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

Jia Ning , Chen Li, Zheng Zhang , Chunyu Wang, Zigang Geng, Qi Dai, and 2 more authors

In ICCV , 2023

PDF Code
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules

Zhi-Qi Cheng, Qi Dai, and Alexander G Hauptmann

In ICCV , 2023

PDF Code
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

Zhen Xing, Qi Dai, Zihao Zhang, Hui Zhang, Han Hu, Zuxuan Wu, and 1 more author

arXiv preprint arXiv:2311.18837, 2023

PDF Website
Parallel sentence-level explanation generation for real-world low-resource scenarios

Yan Liu, Xiaokang Chen, and Qi Dai

In ICASSP , 2023

PDF
Deep Uncoupled Discrete Hashing via Similarity Matrix Decomposition

Dayan Wu, Qi Dai , Bo Li , and Weiping Wang

ACM TOMM, 2023

PDF

2022

SimMIM: A Simple Framework for Masked Image Modeling

Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao , Zhuliang Yao, and 2 more authors

In CVPR , 2022

PDF Supp Code
Rethinking Spatial Invariance of Convolutional Networks for Object counting

Zhi-Qi Cheng, Qi Dai , Hong Li, Jingkuan Song , Xiao Wu, and Alexander G Hauptmann

In CVPR , 2022

PDF Code
On the Connection between Local Attention and Dynamic Depth-Wise Convolution

Qi Han, Zejia Fan, Qi Dai, Lei Sun , Ming-Ming Cheng, Jiaying Liu, and 1 more author

ICLR, 2022

PDF Code Slides
GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

Zhi-Qi Cheng, Qi Dai , Siyao Li, Teruko Mitamura, and Alexander Hauptmann

In ACM Multimedia , 2022

PDF Code
MPII: Multi-level Mutual Promotion for Inference and Interpretation

Yan Liu, Sanyuan Chen, Yazheng Yang, and Qi Dai

In ACL , 2022

PDF Code

2021

Temporal Action Detection with Multi-Level Supervision

Baifeng Shi, Qi Dai, Judy Hoffman, Kate Saenko, Trevor Darrell, and Huijuan Xu

In ICCV , 2021

PDF
Self-Supervised Learning with Swin Transformers

Zhenda Xie, Yutong Lin , Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, and 1 more author

arXiv preprint arXiv:2105.04553, 2021

PDF Code
Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning

Shaobo Min, Qi Dai, Hongtao Xie, Chuang Gan, Yongdong Zhang, and Jingdong Wang

arXiv preprint arXiv:2106.06939, 2021

PDF
A Novel Class Restriction Loss for Unsupervised Domain Adaptation

Qi He, Qi Dai , Xiao Wu, and Jun-Yan He

Neurocomputing, 2021

PDF

2020

Informative Dropout for Robust Representation Learning: A Shape-bias Perspective

Baifeng Shi, Dinghuai Zhang, Qi Dai, Zhanxing Zhu, Yadong Mu, and Jingdong Wang

In ICML , 2020

PDF Code
Weakly-Supervised Action Localization by Generative Attention Modeling

Baifeng Shi, Qi Dai, Yadong Mu, and Jingdong Wang

In CVPR , 2020

PDF Code
Reinforced Short-length Hashing

Xingbo Liu, Xiushan Nie, Qi Dai, Yupan Huang, Li Lian, and Yilong Yin

IEEE TCSVT, 2020

PDF

2019

Deep Incremental Hashing Network for Efficient Image Retrieval

Dayan Wu, Qi Dai, Jing Liu , Bo Li , and Weiping Wang

In CVPR , 2019

PDF Code
Learning Spatial Awareness to Improve Crowd Counting

Zhi-Qi Cheng , Jun-Xiu Li, Qi Dai , Xiao Wu, and Alexander G Hauptmann

In ICCV , 2019

PDF
Improving the Learning of Multi-Column Convolutional Neural Network for Crowd Counting

Zhi-Qi Cheng , Jun-Xiu Li, Qi Dai , Xiao Wu, Jun-Yan He, and Alexander G Hauptmann

In ACM Multimedia , 2019

PDF
Decoupling Localization and Classification in Single Shot Temporal Action Detection

Yupan Huang, Qi Dai, and Yutong Lu

In ICME , 2019

PDF Code

2018

Recurrent Tubelet Proposal and Recognition Networks for Action Detection

Dong Li, Zhaofan Qiu, Qi Dai, Ting Yao, and Tao Mei

In ECCV , 2018

PDF
Deep Domain Adaptation Hashing with Adversarial Learning

Fuchen Long, Ting Yao, Qi Dai, Xinmei Tian, Jiebo Luo, and Tao Mei

In SIGIR , 2018

PDF

2016

Binary Optimized Hashing

Qi Dai, Jianguo Li, Jingdong Wang, and Yu-Gang Jiang

In ACM Multimedia , 2016

PDF
A Bayesian Hashing Approach and its Application to Face Recognition

Qi Dai, Jianguo Li , Jun Wang, Yurong Chen, and Yu-Gang Jiang

Neurocomputing, 2016

PDF

2015

Optimal Bayesian Hashing for Efficient Face Recognition

Qi Dai, Jianguo Li , Jun Wang, Yurong Chen, and Yu-Gang Jiang

In IJCAI , 2015

PDF
Human Action Recognition in Unconstrained Videos by Explicit Motion Modeling

Yu-Gang Jiang, Qi Dai, Wei Liu, Xiangyang Xue, and Chong-Wah Ngo

IEEE TIP, 2015

PDF
Super Fast Event Recognition in Internet Videos

Yu-Gang Jiang, Qi Dai, Tao Mei, Yong Rui, and Shih-Fu Chang

IEEE TMM, 2015

PDF
Fudan-Huawei at MediaEval 2015: Detecting Violent Scenes and Affective Impact in Movies with Deep Learning

Qi Dai, Rui-Wei Zhao, Zuxuan Wu , Xi Wang, Zichen Gu , Wenhai Wu, and 1 more author

In MediaEval , 2015

PDF

2014

Fudan-NJUST at MediaEval 2014: Violent Scenes Detection Using Deep Neural Networks

Qi Dai, Zuxuan Wu, Yu-Gang Jiang, Xiangyang Xue, and Jinhui Tang

In MediaEval , 2014

PDF
Challenge Huawei challenge: Fusing Multimodal Features with Deep Neural Networks for Mobile Video Annotation

Jian Tu, Zuxuan Wu, Qi Dai, Yu-Gang Jiang, and Xiangyang Xue

In ICMEW , 2014

PDF

2013

Beauty is here: Evaluating Aesthetics in Videos using Multimodal Features and Free Training Data

Yanran Wang, Qi Dai, Rui Feng, and Yu-Gang Jiang

In ACM Multimedia , 2013

PDF
Fudan at MediaEval 2013: Violent Scenes Detection Using Motion Features and Part-Level Attributes

Qi Dai, Jian Tu, Ziqiang Shi, Yu-Gang Jiang, and Xiangyang Xue

In MediaEval , 2013

PDF

2012

Trajectory-based Modeling of Human Actions with Motion Reference Points

Yu-Gang Jiang, Qi Dai, Xiangyang Xue, Wei Liu, and Chong-Wah Ngo

In ECCV , 2012

PDF
Fast Semantic Diffusion for Large-scale Context-based Image and Video Annotation

Yu-Gang Jiang, Qi Dai , Jun Wang, Chong-Wah Ngo, Xiangyang Xue, and Shih-Fu Chang

IEEE TIP, 2012

PDF
A Fast Video Event Recognition System and its Application to Video Search

Yu-Gang Jiang, Qi Dai, Yingbin Zheng, Xiangyang Xue, Jie Liu , and Dong Wang

In ACM Multimedia (Demo) , 2012

PDF
The Shanghai-Hongkong team at MediaEval2012: Violent Scene Detection using Trajectory-based Features

Yu-Gang Jiang, Qi Dai, Chun Chet Tan, Xiangyang Xue, and Chong-Wah Ngo

In MediaEval , 2012

PDF