Scholar

Chung-Ching Lin

Google Scholar ID: legkbM0AAAAJ

Microsoft

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

2,960

H-index

i10-index

Publications

Co-authors

Contact

GitHubOpen ↗LinkedInOpen ↗

Publications

11 items

ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation

2025

Cited

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

2025

Cited

EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing

2025

Cited

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

2025

Cited

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

2025

Cited

Audio-Aware Large Language Models as Judges for Speaking Styles

2025

Cited

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

2025

Cited

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

2025

Cited

Resume (English only)

Academic Achievements

ThinkLite-VL: Data-efficient visual reasoning
Point-RFT: Visually grounded reinforcement finetuning
GenXD: Generating any 3D and 4D scenes
SlowFast-VGen: Dual-speed action-driven video generation
VisVM: For VLM self-training
Motion Consistency Model: Accelerating video diffusion
Idea2Img: An LMM-based agent system for visual design and creation
IDOL: Joint video-depth generation for human dance videos
MM-Narrator: Audio descriptions (AD) generation with GPT-4
DisCo: Human dance generation with disentangled controls
MaskComp: Completing visual objects
MPT: Human pose and mesh reconstruction
PaintSeg: Training-free segmentation
AdaM: Video matting
NVF: 3D Hand Pose Estimation
LAVENDER: Unifying video-language understanding
ResT: Zero-shot action recognition
SwinBERT: Video captioning
AdaFuse: Efficient action recognition
VA-RED2: Efficient action recognition
AR-Net: Efficient action recognition
VIST: Video instance segmentation tracking

Research Experience

Works at Microsoft, part of Azure and OpenAI collaboration.

Background

Principal Researcher at Microsoft, focusing on pushing the boundaries of multimodal understanding and generation. Has worked in the fields of computer vision, machine learning, and statistical deep learning. Research interests include algorithms for visual perception (object recognition, localization, segmentation, tracking, etc.), representation learning, and the interaction of vision and language.

Co-authors

0 total

Co-authors: 0 (list not available)