Mykola Haltiuk i dr inż. Aleksander Smywiński-Pohl stworzyli niezwykle ważny i potrzebny projekt: „On the Path to Make Ukrainian a High-Resource Language”.
Kobza to wielkoskalowy ukraiński korpus tekstowy, zawierający prawie 60 miliardów tokenów!
Jego celem jest poprawa jakości i skali danych ukraińskich dostępnych do trenowania wielojęzycznych modeli językowych. Kobza powstała z różnorodnych, wysokiej jakości źródeł, poddanych rygorystycznej deduplikacji.
Korzystając z tego zbioru danych, autorzy pracy wytrenowali Modern-LiBERTa, pierwszy ukraiński enkoder transformerowy zdolny do obsługi długich kontekstów (do 8192 tokenów).
Publikacja dostępna jest pod linkiem: https://aclanthology.org/2025.unlp-1.14/
Badania były przedstawiane m. in. podczas konferencji ACL Conference w Wiedniu i warsztatów UNLP 2025 (Ukrainian Natural Language Processing Workshop).
Mykola Haltiuk jest doktorantem Wydziału Informatyki AGH - jego promotorem jest prof. dr hab. inż. Rafał Scherer, zaś promotorem pomocniczym dr Aleksander Smywiński-Pohl.
Trzymamy kciuki za dalszą pracę naukową i życzymy kolejnych sukcesów!