Mukherjee, Saptarshi, Rohit Parashar, and Aniket Joshi. 2025. “A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment”. Special Interest Group on Artificial Intelligence Research 1 (1). https://sigair.org/index.php/journal/article/view/15.