Scholar

Jiaming Han

Google Scholar ID: vgcxKEcAAAAJ

PhD Student, CUHK MMLab

Computer VisionVision-LanguageVisual Generation

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

4,943

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailhanjiaming@link.cuhk.edu.hk CVOpen ↗TwitterOpen ↗GitHubOpen ↗

Publications

17 items

LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition

2026

Cited

BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion

2026

Cited

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

2026

Cited

OpenGame: Open Agentic Coding for Games

2026

Cited

GIDE: Unlocking Diffusion LLMs for Precise Training-Free Image Editing

2026

Cited

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

2026

Cited

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

2026

Cited

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

2026

Cited

Resume (English only)

Academic Achievements

Publications:
- Bridge: Growing Visual Generative Capacity for Pre-Trained MLLMs
- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations (NeurlPS 2025)
- CrossLMM: Decoupling Long Video Sequences from LLMs via Dual Cross-Attention Mechanisms
- Multimodal Long Video Modeling Based on Temporal Dynamic Context
- Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation (CoRL 2025)
- Retrieval-Augmented Personalization for Multimodal Large Language Models (CVPR 2025)
- OneLLM: One Framework to Align All Modalities with Language (CVPR 2024)
- ImageBind-LLM: Multi-modality Instruction Tuning
- LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
- LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention (ICLR 2024)
- Few-Shot Object Detection via Variational Feature Aggregation (AAAI 2023)

Research Experience

Interned at Bytedance Seed, Shanghai AI Lab, and Tencent YouTu Lab.

Education

Received Master and Bachelor degrees from Wuhan University and Central South University, respectively.

Background

Currently a PhD student at MMLab, CUHK, advised by Prof. Xiangyu Yue. Recent research focuses on efficient and unified multimodal LLMs, such as LLaMA-Adapter, OneLLM, and Tar. Interned at Bytedance Seed, Shanghai AI Lab, and Tencent YouTu Lab.

Miscellany