MUKHERJEE, Saptarshi; PARASHAR, Rohit; JOSHI, Aniket. A Comparative Study of Proximal Policy Optimization (PPO) and Direct Policy Optimization (DPO) on a Toy Environment. Special Interest Group on Artificial Intelligence Research, [S. l.], v. 1, n. 1, 2025. Disponível em: https://sigair.org/index.php/journal/article/view/15. Acesso em: 29 jan. 2026.