Scholar

Zefan Cai

Google Scholar ID: eyIrttAAAAAJ

Student, Peking University

Inference AccelerationMulti-Modality

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,601

H-index

15

i10-index

21

Publications

20

Co-authors

16

list available

Contact

Emailzefncai@gmail.com CVOpen ↗TwitterOpen ↗GitHubOpen ↗

Publications

18 items

Delta Attention Residuals

2026

Cited

0

BabyVision: Visual Reasoning Beyond Language

arXiv.org · 2026

Cited

4

MMGR: Multi-Modal Generative Reasoning

2025

Cited

0

From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models

2025

Cited

0

Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm

2025

Cited

0

MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models

2025

Cited

0

A Survey on Latent Reasoning

2025

Cited

0

R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration

2025

Cited

0

Resume (English only)

Background

Research interests include LLM efficiency (e.g., KV cache retrieval, off-loading, compression, and other inference optimization topics), LLM architecture (e.g., native sparse attention, test-time training), and LLM memorization (e.g., parametric memory, agent memory). He considers long-context as the most important problem in LLM.

Co-authors

16 total

Peking University

DeepSeek AI | Peking University

Senior Researcher, Microsoft

Assistant Professor, University of Wisconsin-Madison

University of California Riverside

Assistant Professor at University of Washington

Carnegie Mellon University