Scholar

Yunze Man

Google Scholar ID: xvQIEKAAAAAJ

University of Illinois Urbana-Champaign

RoboticsMachine LearningComputer VisionAutonomous Driving

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

963

H-index

i10-index

Publications

Co-authors

Contact

TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

12 items

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

2026

Cited

Capturing Visual Environment Structure Correlates with Control Performance

2026

Cited

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

2026

Cited

PPTArena: A Benchmark for Agentic PowerPoint Editing

2025

Cited

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

2025

Cited

OSGym: Super-Scalable Distributed Data Engine for Generalizable Computer Agents

2025

Cited

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

2025

Cited

AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark

2025

Cited

Resume (English only)

Academic Achievements

- Publications:
- GR00T N1.5: An Improved Open Foundation Model for Generalist Humanoid Robots (CVPR 2025)
- Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought (CVPR 2025)
- RandAR: Decoder-only Autoregressive Visual Generation in Random Orders (CVPR 2025)
- Floating No More: Object-Ground Reconstruction from a Single Image (CVPR 2025)
- Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Reasoning (NeurIPS 2024)
- SceneCraft: Layout-Guided 3D Scene Generation (NeurIPS 2024)
- LLM4Vision: Frozen Transformers from Language Models are Effective Visual Encoder Layers (ICLR 2024, Spotlight)
- SituationVLM: Situational Awareness Matters in 3D Vision Language Reasoning (CVPR 2024)
- DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception (IROS 2023)
- BEV-Guided Multi-Modality Fusion for Driving Perception (CVPR 2023)
- Awards:
- NVIDIA Graduate Fellowship 2025
- NeurIPS 2024 Top Reviewers
- CVPR 2024 Outstanding Reviewers

Research Experience

- [2024.05 ~ 2024.08] NVIDIA Research, Research Intern, Hosted by Zhiding Yu, De-An Huang, Guilin Liu
- [2022.05 ~ 2023.01] Adobe Research, Research Intern, Hosted by Jianming Zhang

Education

- Ph.D., Computer Science, University of Illinois Urbana-Champaign, Advisors: Yuxiong Wang, Liangyan Gui
- M.S., Robotics, Carnegie Mellon University, Advisor: Kris Kitani
- B.S., Computer Science, Zhejiang University

Background

Research Interests: Intersection of vision, machine learning, and robotics. Focused on developing vision-centric reasoning models for multimodal and embodied AI agents, object-centric perception systems in dynamic scenes, vision foundation models for open-world scene understanding and generation, and large multimodal models for embodied reasoning and robotics planning.

Miscellany

Personal interests and hobbies not provided

Co-authors

0 total

Co-authors: 0 (list not available)