Scholar

Dong Li

Google Scholar ID: U_LFSV4AAAAJ

Huawei Noah's Ark Lab

Reinforcement learningLLM Alignment

Google Scholar↗

Citations & Impact

All-time

Citations

1,783

H-index

24

i10-index

43

Publications

20

Co-authors

9

list available

Contact

No contact links provided.

Publications

8 items

Ratio-Variance Regularized Policy Optimization

2026

Cited

0

When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling

2026

Cited

0

When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning

2026

Cited

0

$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

2026

Cited

0

PhGPO: Pheromone-Guided Policy Optimization for Long-Horizon Tool Planning

2026

Cited

0

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

2026

Cited

0

ASTER: Agentic Scaling with Tool-integrated Extended Reasoning

2026

Cited

0

Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning

arXiv.org · 2026

Cited

0

Resume (English only)

Co-authors

9 total

Institute of Automation, Chinese Academy of Sciences

中国科学院自动化研究所

Institute of Automation, Chinese Academy of Sciences

Huawei Noah's Ark Lab