[1]

S. Mukherjee, R. Parashar, and A. Joshi, “A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment”, SIGAIR, vol. 1, no. 1, Jul. 2025.