Scholar

Daquan Zhou

Google Scholar ID: DdCAbWwAAAAJ

Bytedance, US

Artificial IntelligenceDeep learning

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

14,360

H-index

i10-index

Publications

Co-authors

list available

Contact

GitHubOpen ↗LinkedInOpen ↗

Publications

21 items

SciCore-Mol: Augmenting Large Language Models with Pluggable Molecular Cognition Modules

2026

Cited

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

2026

Cited

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

2026

Cited

HumanNet: Scaling Human-centric Video Learning to One Million Hours

2026

Cited

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

2026

Cited

TS-Attn: Temporal-wise Separable Attention for Multi-Event Video Generation

2026

Cited

Enhancing Spatial Understanding in Image Generation via Reward Modeling

2026

Cited

Rethinking Video Generation Model for the Embodied World

2026

Cited

Resume (English only)

Academic Achievements

HunyuanVideo: A Systematic Framework For Large Video Generative Models
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
Magic-Me: Identity-Specific Video Customized Diffusion
MagicVideo & MagicVideo-V2: Efficient High-Aesthetic Video Generation with Latent Diffusion
DiffFit: Unlocking transferability of large diffusion models via parameter-efficient fine-tuning (CVPR 2023)
Expanding small-scale datasets with guided imagination (NeurIPS 2023, Corresponding Author & Project Lead)
Diffusion probabilistic model made slim (CVPR 2022)
Dataset Quantization (ICCV 2023)
Scaling & Shifting Your Features (NeurIPS 2022 Spotlight, Equal First Author)

Research Experience

Led model pre-training and diffusion algorithm design for HunyuanVideo
Key contributor to video generation projects including StoryDiffusion, Magic-Me, MagicVideo series
Pioneered research on parameter-efficient fine-tuning (e.g., DiffFit), small-data expansion, and diffusion model slimming
Developed PLLaVA: a parameter-free extension of LLaVA from images to videos for dense video captioning
Proposed Dataset Quantization pipeline achieving 5×–10× training speedup (ICCV 2023)

Background

Currently a Tenure-track Assistant Professor at Peking University
Focused on minimizing energy and memory consumption for training and deploying powerful AI algorithms
Applications include Robotics, AIGC, and Vision-Language-Action (VLA) systems
Research interests: explainable video representation design and efficient long video generation (both training and inference)
Strong interest in hardware-algorithm co-design, especially DNN architecture and memory co-optimization
Ongoing work on model and dataset efficiency for discriminative, generative, and multimodal models

Co-authors

5 total

Bytedance Research, USA

Shuicheng Yan, Fellow of AAAI, ACM, SAEng, IEEE, IAPR | Hunting Robotics and Cuda Researchers

Professor@National University of Singapore | Looking for lab members targeting beyond papers

Yunpeng Chen

National University of Singapore