##navigation.skip.nav## ##navigation.skip.main## ##navigation.skip.footer##

Elektrotehničko i računarsko inženjerstvo

God. 34 Br. 01 (2019): Zbornik radova Fakulteta tehničkih nauka

PRIMENA METODA MAŠINSKOG UČENJA ZA AUTOMATSKU KLASIFIKACIJU MUZIKE PO ŽANRU

  • Nemanja Rašajski
DOI:
https://doi.org/10.24867/01BE05Rasajski
Predato
December 19, 2018
Objavljeno
2018-12-19

Apstrakt

Muzički žanrovi su konvencionalne kategorije koje se koriste za opisivanje muzike. Danas se najčešće koriste za klasifikaciju rastućeg broja muzičkih numera, koja bi dalje trebalo da omogući precizniju preporuku i jednostavniju pretragu muzike. U radu je analizirano  nekoliko metoda i strategija za automatsku klasifikaciju muzike uključujući  konvolucione neuronske mreže (Convolutional neural network – CNN), rekurente neuronske mreže (Reccurent neural network – RNN), mašine potpornih vektora (Support vecotor machines – SVM), random forrest (RF), AdaBoost kao i One vs. Rest (OVR) i klasifikaciju glasanjem. Muzičke numere klasifikovane su na osnovu mel-frequency cepstrum coefficients (MFCC) predstave audio zapisa, a za potrebe CNN-a korišćen je spektrogram. Ostvareni rezultati (~60%) se mogu porediti sa tačnošću (~70%) sa kojom su ljudi u stanju da ispravno procene muzički žanr kao i sa rezultatima ostvarenim u radovima koji su se bavili sličnom temom na istom skupu podataka. Obzirom da preciznost ostvarena u radu nije daleko od procene ljudi, metode bi mogle naći primenu u automatskoj klasifikaciji muzike za potrebe radio stanica ili web sajtova koji se bave distribuiranjem i preporukom muzičkih numera.

Reference

[1] http://marsyasweb.appspot.com/download/data_sets/, Datum pristupa: 25.3.2017.
[2] Muda, Lindasalwa, Mumtaj Begam, and Irraivan Elamvazuthi. "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques." arXiv preprint arXiv:1003.4083 (2010).
[3] Tzanetakis, George, and Perry Cook. "Musical genre classification of audio signals." IEEE Transactions on speech and audio processing 10.5 (2002): 293-302.
[4] http://zone.ni.com/reference/en-XX/help/371361E-01/lvanls/stft_spectrogram_core/#details, Datum pristupa: 15.8.2018.
[5] Sturm, Bob L. "An analysis of the GTZAN music genre dataset." Proceedings of the second international ACM workshop on Music information retrieval with user-centered and multimodal strategies. ACM, 2012.
[6] Müller, Meinard. Information retrieval for music and motion. Vol. 2. Heidelberg: Springer, 2007.
[7] https://ccrma.stanford.edu/~jos/sasp/, Datum pristupa: 15.8.2018.
[8] Mandel, Michael I., and Dan Ellis. "Song-Level Features and Support Vector Machines for Music Classification." ISMIR. Vol. 2005. 2005.
[9] Stanley, Kenneth O., and Risto Miikkulainen. "Evolving neural networks through augmenting topologies." Evolutionary computation 10.2 (2002): 99-127.
[10] Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.
[11] D. Perrot and R. Gjerdigen, “Scanning the dial: An exploration of factors in identification of musical style,” in Proc. Soc. Music Perception Cognition, 1999
[12] http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score, Datum pristupa: 15.8.2018.