Scholar

Andy Arditi

Google Scholar ID: NgyIgX4AAAAJ

Northeastern University

Interpretability

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

367

H-index

6

i10-index

5

Publications

10

Co-authors

7

list available

Contact

Emailandyrdt@gmail.com TwitterOpen ↗

Publications

5 items

Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs

2025

Cited

0

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

2025

Cited

0

Inverse Scaling in Test-Time Compute

2025

Cited

0

Adversarial Manipulation of Reasoning Models using Internal Representations

2025

Cited

0

Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning

2025

Cited

0

Resume (English only)

Background

Research Interest: AI interpretability

Miscellany

Contact Information: andyrdt@gmail.com, andyarditi

Co-authors

7 total

Mechanistic Interpretability Team Lead, Google DeepMind

Nina Panickssery

PHD student at UT Austin