Scholar

Zhenbo Luo

Google Scholar ID: Sh6y-_EAAAAJ

XiaoMi

Vision Language ModelComputer Vision

Google Scholar↗

Citations & Impact

All-time

Citations

3,360

H-index

16

i10-index

20

Publications

20

Co-authors

13

list available

Contact

No contact links provided.

Publications

34 items

DeltaV: Thinking with Visual State Updates in Unified Large Multimodal Models

2026

Cited

0

UniTranslator: A Unified Multi-modal Framework for End-to-end In-Image Machine Translation

2026

Cited

0

ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval

2026

Cited

0

Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment

2026

Cited

0

Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA

2026

Cited

0

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

2026

Cited

0

Q-Mask: Query-driven Causal Masks for Text Anchoring in OCR-Oriented Vision-Language Models

2026

Cited

0

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

2026

Cited

0

Resume (English only)

Co-authors

13 total

Pei Fu (付培)

Beihang University

Institute of Automation, Chinese Academy of Sciences