Scholar

Zhuoyang Zhang

Google Scholar ID: Q1csT-8AAAAJ

Massachusetts Institute of Technology

Computer VisionEfficient Deep Learning

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,156

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailzy_zhang@mit.edu TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

12 items

Grounded 3D-Aware Spatial Vision-Language Modeling

2026

Cited

JetViT: Efficient High-Resolution Vision Transformer with Post-Training Attention Search

2026

Cited

Hide to Guide: Learning via Semantic Masking

2026

Cited

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

2026

Cited

ForeAct: Steering Your VLA with Efficient Visual Foresight Planning

2026

Cited

Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

2026

Cited

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

2025

Cited

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

2025

Cited

Resume (English only)

Academic Achievements

Publications: VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation (ICLR 2025); EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss (CVPR 2024 ELVM Workshop); One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion (CVPR 2024); Complete-to-partial 4D distillation for self-supervised point cloud sequence representation learning (CVPR 2023); CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models (CVPR 2025); NVILA: Efficient Frontier Visual Language Models (CVPR 2025); HART: Efficient Visual Generation with Hybrid Autoregressive Transformer (ICLR 2025); Sparse Refinement for Efficient High-resolution Semantic Segmentation (ECCV 2024); Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model (Technical Report).

Research Experience

During undergraduate studies, worked with Prof. Li Yi and Prof. Hao Su on 3D computer vision.

Education

Ph.D. Student at MIT EECS, advised by Prof. Song Han; Bachelor's Degree in Computer Science from Yao Class, Tsinghua University.

Background

Research Interests: Vision-centric efficient machine learning, especially for foundation models. Bachelor's degree from Yao Class, Tsinghua University.

Miscellany

Academic Service: Conference reviewer for ICLR, ICML, NeurIPS, CVPR, ICCV, ECCV, etc.

Co-authors

3 total

Song Han

Massachusetts Institute of Technology