Mykola Haltiuk i dr inż. Aleksander Smywiński-Pohl stworzyli niezwykle ważny i potrzebny projekt: „On the Path to Make Ukrainian a High-Resource Language”.

Kobza to wielkoskalowy ukraiński korpus tekstowy, zawierający prawie 60 miliardów tokenów!

Jego celem jest poprawa jakości i skali danych ukraińskich dostępnych do trenowania wielojęzycznych modeli językowych. Kobza powstała z różnorodnych, wysokiej jakości źródeł, poddanych rygorystycznej deduplikacji.

Korzystając z tego zbioru danych, autorzy pracy wytrenowali Modern-LiBERTa, pierwszy ukraiński enkoder transformerowy zdolny do obsługi długich kontekstów (do 8192 tokenów).

Publikacja dostępna jest pod linkiem: https://aclanthology.org/2025.unlp-1.14/

Badania były przedstawiane m. in. podczas konferencji ACL Conference w Wiedniu i warsztatów UNLP 2025 (Ukrainian Natural Language Processing Workshop).

Mykola Haltiuk jest doktorantem Wydziału Informatyki AGH - jego promotorem jest prof. dr hab. inż. Rafał Scherer, zaś promotorem pomocniczym dr Aleksander Smywiński-Pohl.

Trzymamy kciuki za dalszą pracę naukową i życzymy kolejnych sukcesów!

  • 4 godziny, 20 minut temu