Scholar

Zhongdao Wang

Google Scholar ID: VkKYpHIAAAAJ

Noah's Ark Lab, Huawei

computer visionautonomous driving

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

5,165

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailwangzhongdao@huawei.com CVOpen ↗GitHubOpen ↗

Publications

13 items

SparseOcc++: Geometry-Aware Sparse Latent Representation for Semantic Occupancy Prediction

2026

Cited

PixelPilot: Scalable Vision-Language-Action Models for End-to-End Autonomous Driving

2026

Cited

LiteFusion: Taming 3D Object Detectors from Vision-Based to Multi-Modal with Minimal Adaptation

2025

Cited

Grounding Everything in Tokens for Multimodal Large Language Models

2025

Cited

TurboVSR: Fantastic Video Upscalers and Where to Find Them

2025

Cited

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

2025

Cited

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

2025

Cited

Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis

2025

Cited

Resume (English only)

Academic Achievements

Selected Publications: 'PIXART-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis' (ICLR 2024); 'PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation' (ECCV 2024); 'Towards Real-time Multi-Object Tracking' (ECCV 2020); 'Do Different Tracking Tasks Require Different Appearance Models?' (NeurIPS 2021).

Research Experience

Currently a researcher at Noah's Ark Lab, Huawei. During his Ph.D., he was involved in several research projects, including JDE, UniTrack, CycAs series, Circle Loss, and D-Softmax Loss.

Education

Ph.D. in Electronic Engineering from Tsinghua University, supervised by Prof. Liang Zheng, Dr. Yifan Sun, Dr. Luca Bertinetto, and Prof. Hengshuang Zhao; B.S. in Physics from Tsinghua University

Background

Research Interests: In the long term, developing general embodied intelligent agents (e.g., autonomous driving cars). Believes that the emergence of general machine intelligence requires observing, interacting with, and learning from the physical world. In the short term, focuses on perception algorithms for autonomous driving, including 2D/3D object detection, segmentation, tracking, 3D reconstruction, and offboard perception (for auto-labeling). Previously, worked on representation learning and object tracking.

Miscellany