Mukherjee, Saptarshi, et al. “A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment”. Special Interest Group on Artificial Intelligence Research, vol. 1, no. 1, July 2025, https://sigair.org/index.php/journal/article/view/15.