Scholar

Yousong Zhu

Google Scholar ID: l4Oqo8sAAAAJ

Associate Professor, Chinese Academy of Sciences, Institute of Automation

Multimodal Large Language ModelsSelf-supervised LearningObject Detection

Google Scholar↗

Citations & Impact

All-time

Citations

1,674

H-index

18

i10-index

21

Publications

20

Co-authors

0

Contact

No contact links provided.

Publications

9 items

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

2026

Cited

0

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

arXiv.org · 2026

Cited

0

From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation

2025

Cited

0

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

2025

Cited

0

VFaith: Do Large Multimodal Models Really Reason on Seen Images Rather than Previous Memories?

2025

Cited

0

GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking

2025

Cited

0

Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models

2025

Cited

0

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

2025

Cited

0

Resume (English only)

Co-authors

0 total

Co-authors: 0 (list not available)