Scholar

Mu Cai

Google Scholar ID: euruCPEAAAAJ

Google DeepMind

Computer VisionMachine LearningMultimodal

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

2,423

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailim.mucai@gmail.com CVOpen ↗TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

9 items

MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

2026

Cited

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

2026

Cited

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

2026

Cited

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

2025

Cited

RECODE: Reasoning Through Code Generation for Visual Question Answering

2025

Cited

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

2025

Cited

Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models

2025

Cited

Magma: A Foundation Model for Multimodal AI Agents

2025

Cited

Resume (English only)

Academic Achievements

Published multiple papers in top international conferences such as ICCV, CVPR, ICLR; including 'Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities', 'Toward Versatile and Efficient Multimodal Models' (PhD Thesis), 'LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models', etc.

Research Experience

Works as a Research Scientist at Google DeepMind, involved in the Gemini Multimodal project.

Education

Received a Ph.D. in Computer Sciences from the University of Wisconsin-Madison, advised by Prof. Yong Jae Lee.

Background

Research interests include multimodal models, vision-language models, etc.; currently a Research Scientist at Google DeepMind, working on the Gemini Multimodal project.

Miscellany

Has recent talk videos available on criticizing and creating vision-language models; contact information includes email, GitHub, Google Scholar, LinkedIn, Twitter (X), and blog.

Co-authors

24 total