Kalba – Lietuvos skaitmeninės transformacijos veiksnys

VDU Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto vyresnioji mokslo darbuotoja, Humanitarinių mokslų fakulteto Lituanistikos katedros docentė, projekto „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“ vadovė dr. Erika Rimkutė (Jono Petronio nuotrauka)
Vasario 20–21 dienomis Vytauto Didžiojo universitete vyko renginiai, skirti Tarptautinei gimtosios kalbos dienai. Nuo vasario 16 d. iki kovo 11 d. muziejuose, bibliotekose, mokymo įstaigose, įvairiose organizacijose, pasaulio lietuvių bendruomenėse vyksta daug Lietuvių kalbos dienų renginių. Jų tikslas – skatinti domėjimąsi ir pasididžiavimą lietuvių kalba, stiprinti norą jos mokytis. Tačiau Lietuvių kalbos dienos suteikia puikią progą pristatyti visuomenei ir tokius projektus, kuriais siekiama tobulinti lietuvių kalbos technologijas.
Lietuvių kalbos ištekliai
Lietuvių kalba priskiriama prie mažų ir retai vartojamų kalbų grupės, todėl, siekiant išlaikyti jos technologinę pažangą, kyla daugiau iššūkių negu didžiosioms kalboms (pvz., anglų). Plėtojantis tokioms mokslo sritims, kaip kompiuterinė lingvistika, tekstynų lingvistika, jau parengta gana daug lietuvių kalbos išteklių: tekstynų, automatinės kalbos analizės programų ir įrankių (visa tai galima rasti CLARIN-LT saugykloje), tačiau kalbos išteklių vis dar trūksta norint užtikrinti tokius lietuvių kalbai pritaikytus inovatyvius technologinius sprendimus, kokiais pasižymi didžiosios pasaulio kalbos. Su dar didesniais iššūkiais lietuvių kalba susiduria dirbtinio intelekto (DI) ir juo paremtų pažangių modelių plėtros kontekste. DI – tai ne tik technologiniai sprendimai, modeliai, algoritmai – didelę reikšmę juos taikant įgyja ir duomenys.
Anotuotų tekstynų svarba
Viena iš automatinei kalbos analizei itin svarbių duomenų grupių – gramatiškai anotuoti tekstynai: tokiuose tekstynuose prie žodžių yra pateikta informacija apie kalbos dalį ir kitus morfologinius požymius (žr. morfologiškai anotuotą tekstyną MATAS), taip pat pažymėta, kokias funkcijas žodžiai atlieka sakiniuose ir kokiais ryšiais jie tarpusavyje susiję (žr. sintaksiškai anotuotą tekstyną ALKSNIS). Dėl kaitybos ypatumų ir formų įvairovės lietuvių kalba laikoma morfologiškai turtinga (angl. mophologically rich) kalba, o šią gramatinių formų įvairovę galima patirti kiekvienam išbandant viešai prieinamus VDU Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto (SITTI) tyrėjų parengtus įrankius, pavyzdžiui, morfologinės analizės ir sintezės įrankį Morfuoklis.
Naujų išteklių rengimas
VDU SITTI vykdo Europos Sąjungos NextGenerationEU projektą „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“ (Nr. 02-098-K-0001; finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ ir Lietuvos Respublikos valstybės biudžeto lėšomis). Šiuo projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ įgyvendinamo Nacionalinio pažangos plano uždavinio Nr. 1.7. Skatinti valstybės skaitmeninimą.
Šio projekto tikslas – parengti 10 mln. žodžių morfologiškai ir sintaksiškai anotuotus tekstynus, kad lietuvių kalbos išteklių rinkinyje būtų kokybiškų duomenų. Be to, šie tekstynai bus gana dideli, lyginant su anksčiau parengtais gramatiškai anotuotais tekstynais. Rengiami morfologiškai ir sintaksiškai anotuoti tekstynai bus laikomi auksiniu standartu ir bus naudojami įvairiems įrankiams (tiek pagrįstiems įprastomis technologijomis, tiek DI) apmokyti. Tokie duomenys yra būtina prielaida siekiant realizuoti inovatyvius technologinius sprendimus, kurie leistų atliepti profesionalų bei visuomenės poreikius ir galėtų funkcionaliai tarnauti tiek verslo, tiek viešųjų paslaugų, tiek privataus piliečių gyvenimo poreikiams.
Nors daug diskutuojama apie lietuvių kalbą kaip svarbų paveldą, neretai pabrėžiant jos archajiškumą, vis dėlto šiais laikais reikia akcentuoti, kad lietuvių kalbai reikalinga įvairių kalbos lygmenų automatinė analizė (šioje srityje labai didelis VDU tyrėjų įdirbis). Automatinė analizė svarbi šiuolaikiniams technologiniams sprendimams, o skaitmeniniai kalbos tyrimai ir ištekliai prisideda prie šalies konkurencingumo didinimo, inovacijų plėtros.