ПРОJЕКТОВАЊЕ АДАПТИВНИХ РЕГУЛАТОРА ПРИМЕНОМ ППО АЛГОРИТМА УПОТРЕБОМ ПРОГРАМСКОГ ПАКЕТА МАТЛАБ

Вељко Радоjичић

doi:10.24867/30BE21Radojicic

Elektrotehničko i računarsko inženjerstvo

God. 40 Br. 04 (2025): Zbornik radova Fakulteta tehničkih nauka

ПРОJЕКТОВАЊЕ АДАПТИВНИХ РЕГУЛАТОРА ПРИМЕНОМ ППО АЛГОРИТМА УПОТРЕБОМ ПРОГРАМСКОГ ПАКЕТА МАТЛАБ

Вељко Радоjичић

30BE21Radojicic.pdf

DOI:: https://doi.org/10.24867/30BE21Radojicic
Predato: April 4, 2025
Objavljeno: 2025-11-18

Apstrakt

У овом раду истражена jе могућност употребе учења потркепљењем, конкретно Proximal Policy Optimization алгоритма, за проблеме управљања континуалним динамичким системима. Изабрано jе неколико репрезентативних, линеарних и нелинеарних система са континуалном динамиком, а за решење проблема управљања, трениран jе одговараjући агент, и то користећи MATLAB-ово софтверско окружење Reinforcement Learning Designer. За приказ резултата и симулациjу, коришћен jе Simulink.

Reference

[1] Richard S. Sutton, Andrew G. Barto “Reinforcement Learning: An Introduction, Second edition”, Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England, 2014.-2015.
[2] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov, “Proximal Policy Optimization Algorithms”, https://arxiv.org/ abs/1707.06347, 2017.
[3] John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel, “High-Dimensional Continuous Control Using Generalized Advantage Estimation”, ICLR, 2016.
[4] Nai-Chieh Huang, Ping-Chun Hsieh, Kuo- Hao Ho, I-Chen Wu “PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clippin”, Department of Computer Science, National Yang Ming Chiao Tung University, Hsinchu, Taiwan, https://arxiv.org/abs/2312.12065, 2024.
[5] Wouter van Heeswijk, “Policy Gradients In Reinforcement Learning Explained” Medium, 2022.