Scholar

Yuxin Song

Google Scholar ID: 1uL_9HAAAAAJ

Baidu

Computer VisionVision-Language ModelGenerative ModelVideo Understanding

Google Scholar↗

Citations & Impact

All-time

Citations

440

H-index

11

i10-index

11

Publications

18

Co-authors

7

list available

Contact

No contact links provided.

Publications

16 items

READ More than What You See: Reinforcement Learning for Accurate and Coherent Audio Description Generations

2026

Cited

0

Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping

2026

Cited

0

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

2026

Cited

0

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

2026

Cited

0

CoLoGen: Progressive Learning of Concept`-`Localization Duality for Unified Image Generation

2026

Cited

0

ViSS-R1: Self-Supervised Reinforcement Video Reasoning

2025

Cited

0

Query-Kontext: An Unified Multimodal Model for Image Generation and Editing

2025

Cited

0

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025

Cited

0

Resume (English only)

Co-authors

7 total

Wenhao Wu (吴文灏)

Scientist @ Amazon AGI

Jingdong Wang (王井东), Fellow of CAE & IEEE & IAPR

Zhejiang University

University of Technology Sydney