Research Scientist — Privacy-Preserving Large-Scale Model Training & Architecture Optimization

About the job

We are building next-generation generative foundation models, with a strong focus on diffusion-based and unified generation-understanding architectures, deployed in privacy-sensitive, production environments. This role sits at the intersection of Large-scale model training systems, GPU-first architecture and kernel-level optimization, Diffusion / DiT / unified multimodal foundation models, Privacy-preserving and compliant training pipelines. You will work on end-to-end training architecture design, from model-parallel execution and GPU efficiency to robust, fault-tolerant, privacy-aware training infrastructure.

Responsibilities

Design and optimize large-scale training architectures for diffusion-based and unified generative models (e.g., DiT, Rectified Flow, hybrid AR + diffusion systems).

Lead GPU-centric performance optimization, including memory layout, communication overlap, kernel fusion, and throughput scaling across thousands of accelerators.

Develop and evolve distributed training strategies (DP / TP / PP / ZeRO / FSDP-style sharding) tailored to long-running, multi-stage foundation model training.

Build fault-tolerant, self-healing training systems that can sustain long-running jobs under frequent hardware, network, and software failures.

Design mechanisms for fast failure detection, recovery, and minimal training interruption, including checkpointing strategies, restart policies, and controlled rollouts.

Improve training ETTR / MFU / utilization efficiency under real-world production constraints.

Optimize Diffusion Transformer training pipelines, including noise schedules, timestep strategies, and memory-efficient attention mechanisms.

Support unified generation-and-understanding models, enabling shared context, long-sequence multimodal reasoning, and scalable training without architectural bottlenecks.

Collaborate with research teams on architecture-level tradeoffs between quality, compute efficiency, and training stability.

Qualifications

Minimum

Strong background in large-scale deep learning systems and distributed training.

Hands-on experience with GPU optimization, including memory management, communication/computation overlap, and performance profiling.

Experience training diffusion models, DiT-style architectures, or large foundation models at scale.

Proficiency in PyTorch and modern distributed training stacks.

Solid understanding of parallelism strategies (DP / TP / PP / ZeRO / FSDP or equivalents).

Ability to reason about training stability, numerical issues, and long-running job robustness.

Preferred

Experience with privacy-preserving ML, sensitive data training, or regulated environments.

Familiarity with fault-tolerant training systems, checkpointing strategies, or production GPU orchestration.

Experience with unified multimodal models (generation + understanding) or hybrid AR/diffusion systems.

Low-level performance work (CUDA kernels, custom ops, fused attention, or communication libraries).

Background in production ML infrastructure supporting thousands of GPUs.