Mukherjee, S., Parashar, R. and Joshi, A. (2025) “A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment”, Special Interest Group on Artificial Intelligence Research, 1(1). Available at: https://sigair.org/index.php/journal/article/view/15 (Accessed: 29 January 2026).