Scholar

Ji Xie

Google Scholar ID: Wv7ItTYAAAAJ

Research Intern, UC Berkeley

Computer VisionImage GenerationMulti-Modal

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailsanaka@berkeley.edu TwitterOpen ↗GitHubOpen ↗

Publications

8 items

MetaPoint: Unlocking Precise Spatial Control in Agentic Visual Generation

2026

Cited

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

2026

Cited

Unified Video Editing with Temporal Reasoner

2025

Cited

Reconstruction Alignment Improves Unified Multimodal Models

2025

Cited

Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning

2025

Cited

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

2025

Cited

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

2025

Cited

3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

2025

Cited

Resume (English only)

Academic Achievements

1. Paper: 'Reconstruction Alignment Improves Unified Multimodal Models', Preprint (2025).
2. Paper: 'In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large-Scale Diffusion Transformer', NeurIPS 2025.
3. Paper: '3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation', ICLR 2025 (Spotlight).
4. Invited Talk: 'Reconstruction Alignment Improves Unified Multimodal Model' at Apple Research, October 2025.
5. SenseTime Scholarship, Top 30 recipients annually in China, June 2025.
6. Gold Medal, International Collegiate Programming Contest (ICPC) regional, October 2022.
7. Gold Medal, China Collegiate Programming Contest (CCPC) regional, October 2022.

Research Experience

Research Intern at BAIR (UC Berkeley), advised by Dr. Xudong Wang and Prof. Trevor Darrell.

Education

Bachelor of Engineering in Computer Science and Technology with Honors from Zhejiang University, Chu Kochen Honors College, expected to graduate in June 2026. GPA: 93.6/100, rank: 2/147.

Background

Research interests include Computer Vision, Generative Models, and Multimodal. Currently exploring Unified Multimodal Models, Video Generation, and World Model.

Miscellany

Was a member of the ZJU ACM/ICPC team and achieved a rating of 2478 on Codeforces. Old blog contains competitive-programming notes.

Co-authors

5 total

Co-author 1

Zechuan Zhang

PhD student in Zhejiang University

XuDong Wang

PhD Student of EECS, UC Berkeley

Trevor Darrell

Professor of Computer Science, U.C. Berkeley

Luke Zettlemoyer

University of Washington; Meta