Scholar

Shuai Bai

Google Scholar ID: ylhI1JsAAAAJ

Qwen Team, Alibaba Group

Multi-Modal LearningVisual Generation

Google Scholar↗

Citations & Impact

All-time

Citations

17,689

H-index

23

i10-index

25

Publications

20

Co-authors

18

list available

Contact

No contact links provided.

Publications

23 items

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

2026

Cited

0

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

2026

Cited

0

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

2026

Cited

0

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

2026

Cited

0

MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing

2026

Cited

0

Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

2026

Cited

0

CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing

2026

Cited

0

GenMask: Adapting DiT for Segmentation via Direct Mask

2026

Cited

0

Resume (English only)

Co-authors

18 total

Qwen Team, Alibaba Group & Peking University

Alibaba Group, Microsoft

Professor, HK Polytechnic University

Dayiheng Liu (刘大一恒)

Qwen Team, Alibaba Group

Qwen Team, Alibaba Group & Peking University