Scholar

Sicong Leng

Google Scholar ID: xQsBP6YAAAAJ

Nanyang Technological University

Multi-modal Learning

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,341

H-index

i10-index

Publications

Co-authors

list available

Contact

EmailLengsicong@gmail.com CVOpen ↗TwitterOpen ↗GitHubOpen ↗

Publications

15 items

LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

2026

Cited

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

2026

Cited

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

2026

Cited

World Model for Robot Learning: A Comprehensive Survey

2026

Cited

RynnBrain: Open Embodied Foundation Models

2026

Cited

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

2025

Cited

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

2025

Cited

From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning

2025

Cited

Resume (English only)

Academic Achievements

Published several papers including 'MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources', 'VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding' and more; received awards like NeurIPS 2025 Oral, CVPR 2025 Highlight, CVPR 2024 Highlight, ACL 2023 Area Chair Award, and Best Paper Nomination.

Research Experience

Involved in multiple research projects such as MMR1, VideoLLaMA 3, Inf-CLIP, and has presented papers at various international conferences.

Education

Ph.D. student at Nanyang Technological University, supervised by Prof. Lu Shijian (NTU) and Dr. Bing Lidong (Alibaba-DAMO Academy), specializing in Deep Learning and Multi-modality AI.

Background

Research Interests: Multimodality and Embodied AI, specifically Language+Vision and Language+Vision+Action. Specialization: Deep Learning with a focus on Multi-modality and Embodied AI research.

Miscellany