Mukherjee, S., Parashar, R., & Joshi, A. (2025). A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment. Special Interest Group on Artificial Intelligence Research, 1(1). Retrieved from https://sigair.org/index.php/journal/article/view/15