PRIMENA UČENJA USLOVLJAVANJEM NA OBUČAVANJE AGENTA ZA IGRANJE VIDEO IGRE ROAD FIGHTER

Ivan Radosavljević

doi:10.24867/01BE47Radosavljevic

Elektrotehničko i računarsko inženjerstvo

God. 34 Br. 01 (2019): Zbornik radova Fakulteta tehničkih nauka

PRIMENA UČENJA USLOVLJAVANJEM NA OBUČAVANJE AGENTA ZA IGRANJE VIDEO IGRE ROAD FIGHTER

Ivan Radosavljević

01BE47Radosavljevic.PDF

DOI:: https://doi.org/10.24867/01BE47Radosavljevic
Predato: December 21, 2018
Objavljeno: 2018-12-21

Apstrakt

U ovom radu dat je primer primene učenja uslovljavanjem agenta za igranje video igre Road Fighter. Agent je implementiran kao Duboka Q-mreža i obučavan metodom Dubokog Q-Učenja. Obučavanje je vršeno samo na osnovu slika ekrana video igre. Rezultati postignuti nakon 10000 epizoda obučavanja bili su slični rezultatima postignutim u srodnim radovima pod uslovom sličnih hardverskih ograničenja.

Reference

[1] V. Mnih et al., “Playing Atari with Deep Reinforcement Learning,” p. 9.
[2] D. Silver et al., “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm,” arXiv:1712.01815 [cs], Dec. 2017.
[3] D. Silver et al., “Mastering the game of Go without human knowledge,” Nature, vol. 550, no. 7676, pp. 354–359, Oct. 2017.
[4] “OpenAI Five,” OpenAI Blog, Jun-2018. Dostupno na: https://blog.openai.com/openai-five/.
[5] “Nestopia - NES/Famicom Emulator.” Dostupno na: http://nestopia.sourceforge.net/.
[6] M. Satran, “Programming reference for Windows API.”. Dostupno na: https://docs.microsoft.com/en-us/windows/desktop/api/.
[7] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” arXiv:1502.03167 [cs], Feb. 2015.
[8] “PyTorch dokumentacija.” Dostupno na: https://pytorch.org/docs/stable/index.html.
[9] H. van Hasselt, A. Guez, and D. Silver, “Deep Reinforcement Learning with Double Q-Learning,” p. 7.
[10] A. Paszke, “Reinforcement Learning (DQN) Tutorial — PyTorch Tutorials.” Dostupno na: https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html
[11] P. J. Huber, “Robust Estimation of a Location Parameter,” Ann. Math. Statist., vol. 35, no. 1, pp. 73–101, Mar. 1964.
[12] D. P. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” arXiv:1412.6980 [cs], Dec. 2014.