##navigation.skip.nav## ##navigation.skip.main## ##navigation.skip.footer##

Elektrotehničko i računarsko inženjerstvo

God. 40 Br. 04 (2025): Zbornik radova Fakulteta tehničkih nauka

АНАЛИЗА И ОПТИМИЗАЦИЈА Wav2vec 2.0 МОДЕЛА ЗА ПРЕПОЗНАВАЊЕ ГОВОРА НА СРПСКОМ ЈЕЗИКУ

  • Тамара Бановац
DOI:
https://doi.org/10.24867/30BE40Banovac
Predato
April 4, 2025
Objavljeno
2025-11-18

Apstrakt

Овај рад се бави применом Wav2vec 2.0 модела за препознавање говора на српском језику. Рад обухвата анализу оригиналног модела, обученог техником самонадгледаног учења на нелабелираним подацима, и fine-tuning фазу на српском језику. Оригинална имплементација, са 53000 сати нелабелираних и 10 минута лабелираних података, постигла је WER од 4.8/8.2, што потврђује ефикасност коришћених метода. Циљ је испитати применљивост ових метода на аудио подацима на српском језику. Постигнути резултати на српском језику показују WER од 10.3% и CER од 3.4%, уз могућност даљих унапређења.

Reference

[1] A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations,” Oct. 22, 2020, arXiv: arXiv:2006.11477. Accessed: Sep. 24, 2024. [Online]. Available: http://arxiv.org/abs/2006.11477
[2] “Common Voice.” Accessed: Sep. 24, 2024. [Online]. Available: https://commonvoice.mozilla.org/en
[3] “ASR training dataset for Serbian JuzneVesti-SR v1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1679
[4] “Parliamentary spoken corpus of Serbian ParlaSpeech-RS 1.0.” Accessed: Sep. 24, 2024. [Online]. Available: https://www.clarin.si/repository/xmlui/handle/11356/1834
[5] A. Vaswani et al., “Attention Is All You Need,” 2017, arXiv. doi: 10.48550/ARXIV.1706.03762.
[6] A. van den Oord, Y. Li, and O. Vinyals, “Representation Learning with Contrastive Predictive Coding,” Jan. 22, 2019, arXiv: arXiv:1807.03748. Accessed: Sep. 24, 2024. [Online]. Available: http://arxiv.org/abs/1807.03748
[7] A. Graves, S. Fernández, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning - ICML ’06, Pittsburgh, Pennsylvania: ACM Press, 2006, pp. 369–376. doi: 10.1145/1143844.1143891.