Аналiза і клясифікация русиньской бесіды языковым модельом штучной інтеліґенциі OpenAI Whisper

Autor

  • Paweł Małecki AGH University of Krakow
  • Magdalena Piotrowska AGH University of Krakow

DOI:

https://doi.org/10.12797/RRB.20.2024.20.10

Słowa kluczowe:

język rusiński, fonetyka, klasyfikacja, asymilacja, AI, sztuczne sieci neuronowe, ASR

Abstrakt

ANALIZA I KLASYFIKACJA JĘZYKA RUSIŃSKIEGO PRZY UŻYCIU MODELU SZTUCZNEJ SIECI NEURONOWEJ ASR OPENAI WHISPER

Artykuł przedstawia analizę lingwistyczną języka rusińskiego, koncentrując się na jego złożonych i zmieniających się aspektach, takich jak wymowa oraz różnice indywidualne, regionalne i historyczne. Do przeprowadzenia badania wykorzystano sztuczną sieć neuronową opartą na modelu OpenAI Whisper. Model ten, choć szkolony na danych z większości państwowych języków urzędowych, nie był bezpośrednio trenowany na bazach próbek języka rusińskiego ze względu na jego lokalny i mniejszościowy/etniczny charakter. Stąd próbki mowy tego języka klasyfikowane były przy użyciu najbardziej zbliżonych dostępnych etykiet, co pozwoliło na wyznaczenie podobieństwa języka rusińskiego do innych słowiańskich języków. Badanie objęło użytkowników zróżnicowanych pod względem płci, wieku i lokalizacji (Polska, Ukraina, Słowacja, Serbia), wykazując znaczące podobieństwa do języków dominujących w tych krajach oraz zależności między wyznaczonym podobieństwem językowym a wiekiem mówców.

Biogramy autorów

  • Paweł Małecki - AGH University of Krakow

    Dr hab. inż., prof. AGH – ukończył studia na kierunkach automatyka i robotyka oraz mechanika i budowa maszyn. W 2013 r. uzyskał stopień naukowy doktora nauk technicznych, natomiast w 2021 r. uzyskał stopień doktora habilitowanego w tej samej dziedzinie. Obecnie jego zainteresowania naukowe skupiają się na auralizacji oraz wykorzystaniu technik ambisonicznych w analizie zjawisk akustycznych. Zajmuje się również przesyłaniem sygnałów cyfrowych, ich percepcją, oceną jakości i innymi pokrewnymi zagadnieniami. Jako inżynier dźwięku zrealizował ponad 30 płyt długogrających. Specjalizuje się w nagraniach muzyki akustycznej, jazzu, folku i folkloru, muzyki chóralnej i klasycznej. Laureat nagrody Fryderyk 2024 w kategorii „Album roku: muzyka kameralna – wokalna”, jako reżyser dźwięku. Jest jednym z założycieli i kierownikiem technicznym radia lem.fm. Jest laureatem wielu stypendiów i nagród, m.in. Stypendium Prezydenta Miasta Krakowa, europejskiego stypendium Doctus. Jest autorem ponad 100 prac naukowych, w tym 18 artykułów w czasopismach z listy Thomson Reuters na temat akustyki architektonicznej, percepcji dźwięku przestrzennego, lokalizacji źródła dźwięku i analizy krajobrazu dźwiękowego. Poza licznymi naukowymi wystąpieniami, prowadził warsztaty z produkcji dźwięku ambisonicznego na ogólnoświatowych sympozjach dźwiękowych. Był dwukrotnie członkiem jury podczas „Student 3D Audio Production Competition in Ambisonics” oraz w konkursie „Student Recording Competition the Immersive Audio Category at AES Convention”.

  • Magdalena Piotrowska - AGH University of Krakow

    Dr inż. – uzyskała stopień doktora z wyróżnieniem na Wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej. Jej praca doktorska była poświęcona tematyce retrievalu informacji muzycznych. Jest pracowniczką Akademii Górniczo-Hutniczej w Krakowie. Jest aktywnym członkiem Audio Engineering Society, gdzie pełni funkcję gubernatora i przewodniczącej komitetu edukacyjnego. Jej główne zainteresowania naukowe to retrieval informacji muzycznych, psychoakustyka, przetwarzanie sygnałów oraz powiązania między nauką a praktycznym zastosowaniem w dziedzinie technologii audio. Jest współautorką książki o dźwięku dla dzieci Halo! Tu dźwięki, a także uczestniczką licznych inicjatyw edukacyjnych dotyczących dźwięku i akustyki.

Bibliografia

Bouamor, Houda, Hassan, Sabit, Habash, Nizar. 2019. «The MADAR Shared Task on Arabic Fine-Grained Dialect Identification». В: Proceedings of the Fourth Arabic Natural Language Processing Workshop. Ред. Wassim El-Hajj, Lamia Hadrich Belguith, Fethi Bougares, Walid Magdy, Imed Zitouni, Nadi Tomeh, Mahmoud El-Haj, Wajdi Zaghouani, 199–207. Florence: Association for Computational Linguistics. https://doi.org/10.18653/v1/W19-4622. DOI: https://doi.org/10.18653/v1/W19-4622

Kushko, Nadiya. 2007. «Literary Standards of the Rusyn Language: The Historical Context and Contemporary Situation». The Slavic and East European Journal 51, ч [č]. 1: 111–132.

Moser, Michael. 2016. «Rusyn: A New-Old Language In-between Nations and States». В: The Palgrave Handbook of Slavic Languages, Identities and Borders. Ред. Tomasz Kamusella, Motoki Nomachi, Catherine Gibson, 124–139. London: Palgrave Macmillan. https://doi.org/10.1007/978-1-137-34839-5_7. DOI: https://doi.org/10.1007/978-1-137-34839-5_7

Nikitin, Alexey G., Kochkin, Igor T., June, Cynthia M., Willis, Catherine M., Mcbain, Ian, Videiko, Mykhailo Y. 2009. «Mitochondrial DNA Sequence Variation in the Boyko, Hutsul, and Lemko Populations of the Carpathian Highlands». Human Biology 81, ч [č]. 1: 43–58. https://doi.org/10.3378/027.081.0104. DOI: https://doi.org/10.1353/hub.2009.a270415

Plišková, Anna. 2008. «Practical Spheres of the Rusyn Language in Slovakia». Studia Slavica Academiae Scientiarum Hungaricae 53, ч [č]. 1: 95–115. https://doi.org/10.1556/SSlav.53.2008.1.6. DOI: https://doi.org/10.1556/SSlav.53.2008.1.6

Rabus, Achim, Scherrer, Yves. 2017. «Lexicon Induction for Spoken Rusyn – Challenges and Results». В: Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Ред [Red]. Tomaž Erjavec, Jakub Piskorski, Lidia Pivovarova, Jan Šnajder, Josef Steinberger, Roman Yangarber, 27–32. Valencia: Association for Computational Linguistics. https://doi.org/10.18653/v1/W17-1405. DOI: https://doi.org/10.18653/v1/W17-1405

Radford, Alec, Kim, Jong Wook, Xu, Tao, Brockman, Greg, McLeavey, Christine, Sutskever, Ilya. 2023. «Robust Speech Recognition via Large-Scale Weak Supervision». В: Proceedings of the 40th International Conference on Machine Learning (ICML’23). Ред [Red]. Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, Jonathan, 1–28 (28492–28518). Honolulu: JMLR.org.

Rahate, Anil, Walambe, Rahee, Ramanna, Sheela, Kotecha, Ketan. 2022. «Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future Directions». Information Fusion 81: 203–239. https://doi.org/10.1016/j.inffus.2021.12.003. DOI: https://doi.org/10.1016/j.inffus.2021.12.003

Scherrer, Yves, Rabus, Achim. 2019. «Neural Morphosyntactic Tagging for Rusyn». Natural Language Engineering 25, ч [č]. 5: 633–650. https://doi.org/10.1017/S1351324919000287. DOI: https://doi.org/10.1017/S1351324919000287

Zampieri, Marcos, Nakov, Preslav, Scherrer, Yves. 2020. «Natural Language Processing for Similar Languages, Varieties, and Dialects: A Survey». Natural Language Engineering 26, ч. 6: 595–612. https://doi.org/10.1017/S1351324920000492. DOI: https://doi.org/10.1017/S1351324920000492

Pobrania

Opublikowane

10-12-2024

Numer

Dział

Дискурс • Dyskurs

Jak cytować

Małecki, Paweł, and Magdalena Piotrowska. 2024. “Аналiза і клясифікация русиньской бесіды языковым модельом штучной інтеліґенциі OpenAI Whisper”. Rocznik Ruskiej Bursy 20 (December): 189-204. https://doi.org/10.12797/RRB.20.2024.20.10.