Scholar

Sapana Chaudhary

Google Scholar ID: dsb5VjkAAAAJ

AWS AI

Reinforcement LearningPost-TrainingOnline Optimization

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

143

H-index

i10-index

Publications

Co-authors

list available

Contact

Emailsapanac@tamu.edu TwitterOpen ↗GitHubOpen ↗

Publications

6 items

Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling

2026

Cited

MaxCode: A Max-Reward Reinforcement Learning Framework for Automated Code Optimization

arXiv.org · 2026

Cited

VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

2025

Cited

Teaching Large Language Models to Reason through Learning and Forgetting

2025

Cited

Risk-Averse Finetuning of Large Language Models

2025

Cited

AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

International Conference on Learning Representations · 2024

Cited

Resume (English only)

Academic Achievements

Paper on reasoning distillation out on arxiv! (Mar 2025)
AgentOccam accepted to ICLR 2025! (Jan 2025)
Paper on Risk Averse RLHF accepted to Neurips 2024! (Sep 2024)
Paper on Pedagogical Alignment of LLMs accepted to EMNLP 2024! (Sep 2024)
Paper on Safe distributed OCO accepted to TMLR! (Aug 2023)
Paper on meta-RL in sparse reward environments accepted to NeurIPS 2022! (Sep 2022)
Paper on Safe online convex optimization accepted to AAAI 2022! (Dec 2021)

Background

Applied Scientist at Amazon, specializing in reinforcement learning (RL) Post-training. Research interests include safety in online learning, RL, and reinforcement learning from human feedback (RLHF).

Miscellany

Hobbies include hiking, cooking, painting, and photography.

Co-authors

2 total

Dileep Kalathil

Texas A&M University

Balaraman Ravindran

Professor of Data Science and AI, Wadhwani School of Data Science and AI, IIT Madras