Magdalena Król reprezentowała Wydział Informatyki AGH na jednej z najważniejszych światowych konferencji z zakresu przetwarzania języka naturalnego – EMNLP 2025 (Empirical Methods in Natural Language Processing).
Podczas wydarzenia zaprezentowała poster pt. „Lemmatization of Polish Multi-word Expressions”, przygotowany wspólnie z Aleksandrem Smywińskim-Pohlem, Zbigniewem Kaletą i Pawłem Lewkowiczem.

Publikacja została doceniona przez organizatorów i otrzymała wyróżnienie SAC Highlight (Senior Area Chair Highlight) – prestiżową nagrodę przyznawaną przez przewodniczących sekcji konferencji (Senior Area Chairs) dla niewielkiej liczby prac uznanych za szczególnie wartościowe i wpływowe w swojej dziedzinie.

O badaniach

Zespół opracował model CLEM, który rozwiązuje jedno z bardziej złożonych zagadnień językoznawczych: lematyzację wielowyrazowych wyrażeń w języku polskim.
Lematyzacja polega na sprowadzaniu wyrazów do ich formy podstawowej (np. „książkami” → „książka”), a w tym przypadku – także całych fraz, takich jak „Ministerstwo Nauki i Szkolnictwa Wyższego” czy „prawo administracyjne”.

Model CLEM potrafi rozpoznać takie złożone wyrażenia w tekście i sprowadzić je do jednej spójnej formy. Dzięki temu możliwe staje się dokładniejsze wyszukiwanie informacji, analiza danych i przetwarzanie języka przez systemy sztucznej inteligencji.

Zespół WI AGH zastosował podejście uczenia maszynowego (dostrajając modele plT5 i mT5) na danych pochodzących m.in. z konkursu PolEval 2019 oraz z dodatkowych źródeł (Wikipedia, tzw. dane „srebrnego standardu”).
Opracowany model osiągnął najlepszy dotychczasowy wynik (tzw. state of the art, SOTA) dla języka polskiego – poprawnie przetwarzając około 9 na 10 złożonych fraz, co czyni go najdokładniejszym rozwiązaniem tego typu w kraju.

Wyniki modelu CLEM:
• 86,23% – dokładność przy rozróżnianiu wielkości liter (Accuracy Case-Sensitive)
• 89,43% – dokładność bez rozróżniania wielkości liter (Accuracy Case-Insensitive)
• 88,79% – wynik połączony (combined accuracy), stanowiący nowy punkt odniesienia (SOTA) w lematyzacji wyrażeń wielowyrazowych (MWE) w języku polskim

Model jest przy tym lekki, efektywny i dobrze dopasowany do języka polskiego, co pozwala stosować go w praktycznych rozwiązaniach: od analizy tekstów prawnych i naukowych po przetwarzanie treści w systemach AI działających w języku polskim.

Publikacja jest dostępna w materiałach konferencyjnych:
https://aclanthology.org/2025.emnlp-main.1126

  • 2 godziny, 34 minuty temu