Scholar

Yunpeng Zhai

Google Scholar ID: YZ88bV8AAAAJ

Alibaba Group; Peking University

LLMReinforcement LearningMulti-agent SystemComputer Vision

Google Scholar↗

Citations & Impact

All-time

Citations

920

H-index

7

i10-index

7

Publications

16

Co-authors

5

list available

Contact

No contact links provided.

Publications

17 items

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

2026

Cited

0

From Feedback Loops to Policy Updates: Reinforcement Fine-Tuning for LLM-Based Alpha Factor Discovery

2026

Cited

0

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

2026

Cited

0

E2E-REME: Towards End-to-End Microservices Auto-Remediation via Experience-Simulation Reinforcement Fine-Tuning

2026

Cited

0

Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism

arXiv.org · 2026

Cited

0

Agentic Memory Enhanced Recursive Reasoning for Root Cause Localization in Microservices

arXiv.org · 2026

Cited

0

d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models

2025

Cited

0

CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL

2025

Cited

0

Resume (English only)

Co-authors

5 total

Yonghong Tian, IEEE Fellow

Boya Distinguish Professor, School of CS & School of ECE at Peking University, Pengcheng Laboratory

University of Chinese Academy of Sciences, University of Maryland

Rongrong Ji 纪荣嵘

Professor, Xiamen University