Scholar

Jerry Wei

Google Scholar ID: Y4sk3aMAAAAJ

Anthropic

large language modelsnatural language processinggame-changing research

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,965

H-index

15

i10-index

15

Publications

18

Co-authors

9

list available

Contact

Emailjerrywei@alumni.stanford.edu CVOpen ↗TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

5 items

Jailbroken Frontier Models Retain Their Capabilities

2026

Cited

0

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

2026

Cited

0

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

2026

Cited

0

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

arXiv.org · 2026

Cited

2

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

2025

Cited

0

Resume (English only)

Academic Achievements

Published papers: Constitutional classifiers: Defending against universal jailbreaks across thousands of hours of red teaming; Long-form factuality in large language models; Simple synthetic data reduces sycophancy in large language models; Symbol tuning improves in-context learning in language models; Larger language models do in-context learning differently.

Research Experience

Lead the deployment-robustness team at Anthropic; was a research engineer at Google DeepMind and Google Brain; interned as a software-engineering intern at Meta in 2022.

Education

Undergraduate at Stanford University, specializing in AI.

Background

An AI researcher focusing on deployment robustness; based in San Francisco.

Miscellany

Participated in several conference talks including Caltech AI Alignment, Generative AI Summit - Silicon Valley, Princeton AI Alignment, etc.

Co-authors

9 total

Meta Superintelligence Labs

Research Scientist, Google DeepMind

Google DeepMind

Saeed Hassanpour

Professor at Dartmouth

Research Scientist, Google

Stanford University

Research Scientist, Google DeepMind

Lorenzo Torresani

Northeastern University