Scholar

Shibo Hao

Google Scholar ID: xwbHbUQAAAAJ

Ph.D. student, UC San Diego

machine learninglarge language model

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,586

H-index

i10-index

Publications

Co-authors

list available

Contact

Emails5hao@ucsd.edu CVOpen ↗TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

14 items

CocoaBench: Evaluating Unified Digital Agents in the Wild

2026

Cited

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

2026

Cited

Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings

2026

Cited

Concise Reasoning in the Lens of Lagrangian Optimization

2025

Cited

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

2025

Cited

K2-Think: A Parameter-Efficient Reasoning System

2025

Cited

Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation

2025

Cited

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

2025

Cited

Resume (English only)

Academic Achievements

Publications: 'Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought' (NeurIPS 2025), 'Offline Reinforcement Learning for LLM Multi-Step Reasoning' (ACL 2025), 'Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective' (NeurIPS 2025), 'Training Large Language Models to Reason in a Continuous Latent Space' (COLM 2025), etc. Awards: ToolkenGPT received the best paper award at NeurIPS 2023.

Research Experience

Research scientist intern at Meta FIAR lab, mentored by Yuandong Tian and Jason Weston. Involved in multiple research projects such as Guru, OREO, FoR, Coconut, etc.

Education

Ph.D. student at UC San Diego, advised by Zhiting Hu; B.S. in Computer Science from Peking University.

Background

Research interests: machine reasoning. Work includes training large language models to reason with reinforcement learning, exploring reasoning in latent space, building a system-2 reasoning framework using world-model planning, and augmenting LLMs with external tools.

Miscellany