[1]

Mukherjee, S. et al. 2025. A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment. Special Interest Group on Artificial Intelligence Research. 1, 1 (Jul. 2025).