Kalbos technologijos – būtina sąlyga kalbai egzistuoti

VDU Kompiuterinės lingvistikos centre (KLC) jau 25 metus kuriamos kalbos technologijos. 1992 m. įkurto centro bene geriausiai žinomas produktas yra Dabartinės lietuvių kalbos tekstynas (DLKT). Jis, pasak KLC įkūrėjos prof. Rūtos Petrauskaitės, jau tapęs lietuviškojo interneto dalimi. Kompiuterinės lingvistikos centro tyrėjai pirmiausia ėmėsi rengti būtent šį kiekvienos kalbos kompiuterizavimui svarbų išteklių, nes tik sukaupus tekstyną buvo galima siekti pagrindinio centro tikslo – parengtų išteklių (tekstynų, duomenynų) pagrindu kurti lietuvių kalbai reikalingas kalbos technologijas.

Per 25 metus KLC sėkmingai įvykdyta daugiau nei 15 nacionalinių ir tarptautinių projektų, publikuota aktualių mokslinių straipsnių bei reikšmingų monografijų. Tarp svarbesnių KLC pasiekimų galima paminėti KLC dalyvavimą europinėje TELRI infrastruktūroje, dalyvavimą kuriant pirmąją lietuvių kalbai skirtą anglų–lietuvių mašininio (automatinio) vertimo sistemą, vadovavimą kuriant lietuvių kalbos sintaksinės ir semantinės analizės informacinę sistemą. Šiuo metu KLC kartu su partneriais atstovauja Lietuvai tarptautinės kalbos technologijos infrastruktūros konsorciume CLARIN ERIC.

Plačiajai visuomenei gali būti nevisiškai aišku, kuo svarbūs kalbiniai ištekliai ir kalbos technologijos. Ar verta į tai investuoti lėšas ir laiką? Dabartinio KLC vadovo doc. dr. A. Utkos manymu, išaugus kompiuterių galimybėms jau šiandieniniame pasaulyje galime pamatyti nemažai kalbos technologijų pasiekimų ­– tai ne vien visiems žinomas automatinis vertimas, bet ir kalbantys išmanieji automobiliai, automatiškai aplinką stebinčios ir automobilių numerius fiksuojančios stebėjimo kameros, į klausimus atsakantys virtualūs asistentai, diktavimo sistemos ir kt. Jau greitai nieko nestebins žmonės, smagiai besišnekučiuojantys su savo automobiliais, šaldytuvais ar kitais prietaisais. Vis dėlto, neužmirškime, kad nors šiandieniniai vis tobulėjantys mokymosi algoritmai jau sukurti ir prieinami, tačiau, norint juos toliau tobulinti, t. y. išmokyti kalbėti, rašyti ar skaityti tiksliau, reikalingi kalbiniai ištekliai.

Lietuvių kalbai dar būtinesni kalbiniai ištekliai, nes kalba yra sudėtinga. Kalbos ištekliai – tai įvairios duomenų bazės, kuriose sukaupti įvairiai sužymėti tekstai, garsai, kiti kalbos elementai, taip pat ir duomenų bazių valdymo, garso ir teksto apdorojimo programinė įranga. Beje, aukštas tam tikros kalbos kompiuterizavimo lygis yra ir tos kalbos išlikimo sąlyga, nes, vartojant kalbą mažiau, ne visomis funkcijomis arba jos nevartojant, kyla grėsmė kalbai išnykti. Lietuvos vartotojai turi teisę naudotis šiuolaikinėmis technologijomis, kurios „kalba“ lietuviškai, todėl itin svarbu ginti ir užtikrinti lietuvių kalbos statusą technologinėje terpėje, kad lietuvių kalba netaptų trečios lygos kalba arba, kitaip sakant, kad lietuvių kalba nepatirtų skaitmeninės atskirties.

Visuomenei gerai žinomas kalbos technologijų pavyzdys yra automatinis vertimas. Mažai kas nebandė Google Translate, bet tie, kurie tokiomis programomis domisi, turbūt yra išbandę ir anglų–lietuvių kalbų automatinio vertimo sistemą http://vertimas.vdu.lt/twsas/.  Ši sistema, bendradarbiaujant KLC ir partneriams, sukurta naudojant taisyklėmis pagrįstus automatinio vertimo metodus, kai originalo kalbos tekstas „išnarstomas“ žodžio ir sakinio dalimis ir vėl „sudedamas“ kitoje kalboje. Ilgą laiką, o kartais net ir dabar, šis vertimo metodas fleksinėms kalboms (tokia kalba yra lietuvių kalba) laikomas geriausiu, nes mažiausiai iškraipo sakinio struktūrą.

2007 m. pabaigoje pasirodžiusi ši anglų–lietuvių kalbų automatinio vertimo sistema sulaukė didžiulio ažiotažo, nes užtikrino palyginti kokybiškus rezultatus ir padėjo daugeliui vartotojų suprasti teksto turinį. Po pusmečio pasirodžius Google Translate daugiakalbei vertimo paslaugai, vartotojų srautas gerokai nuslūgo, tačiau VDU vertimo sistema ir toliau buvo naudojamasi, ištikimų gerbėjų ši sistema turi ir dabar, kai jau nėra aktyviai palaikoma.

Įdomu, kiek iš jūsų dar naudoja savo 10 metų senumo kompiuterius? – klausia buvęs VDU automatinio vertimo projekto vadovas Vaidas Repečka, o apie ateities perspektyvas kalba taip: „Šiuo metu geriausią vertimo kokybę užtikrina neuroniniais tinklais ir mašininiu mokymusi pagrįstos vertimo sistemos. Tačiau jų naudojimas kelia nerimą, nes tokios priemonės iškraipo fleksinių kalbų struktūrą, klaidingai išversti teksto gabaliukai perkeliami į kitus tekstus ir taip plinta toliau. Būtina įpareigoti didžiąsias įmones spręsti šias problemas, nes pokyčiai gali tapti negrįžtami. Tai būtina spręsti visos Europos Sąjungos mastu, nes ir didžiosios Europos kalbos internete tapo „mažosios“ palyginti su anglų kalba. Kol kas yra labai sunku sukurti gerą vertimą, nes žmogus vertėjas turi daug kontekstinės informacijos ir gali ją panaudoti versdamas, o kompiuteriams reikia tai sukaupti, bet paieškos sistemose vartotojo asmeninių duomenų kontekstas jau naudojamas, taigi automatinis vertimas toliau tobulės“.

Normalu, kad vartotojai mato tik galutinius produktus ar programas, pavyzdžiui, automatinio vertimo sistemą, bet KLC tyrėjams, dirbantiems kompiuterinės lingvistikos srityje, matyti ir tokių produktų kūrimo užkulisiai: juk kalbos technologijos dažnai integruoja bendresnius išteklius, kurie suteikia įrankiams kalbos žinių apie žodyną, gramatiką, fonetiką. Labai dažnai automatizuotai, panaudojant tam tinkamus įrankius šias žinias galima „surinkti“ iš įvairių tekstynų. Tekstynai yra didžiulės (milijoninės, bilijoninės…) elektroninių autentiškų, įvairių tekstų sankaupos; tekstynuose sukauptus duomenis gali naudoti ne tik įrankiai, bet ir žmonės.

Pavyzdžiui, Dabartinės lietuvių kalbos tekstynas yra patikimas šaltinis dabartinės kalbos žodžių reikšmėms ir vartosenai suprasti. Dvikalbiai lygiagretieji tekstynai (anglų–lietuvių, lietuvių–anglų, čekų–lietuvių, lietuvių–čekų, taip pat latvių–lietuvių, lietuvių–latvių kalbų) yra ypač naudingi studijuojantiems užsienio kalbas, vertėjams (teoretikams, praktikams), taip pat redaktoriams. KLC vykdyto projekto Semantika.lt metu buvo pradėtas kaupti ir milžiniškas (daugiau nei 1 mlrd. žodžių) bendrasis lietuvių žiniasklaidos tekstynas, jame kaupiama visa informacija iš 40-ies lietuviškų naujienų portalų. Tiesa, tokios didžiulės apimties tekstinei medžiagai, kurią jau galima vadinti didžiaisiais duomenimis (angl. Big Data), dar sunku suteikti kokybišką, sklandžią internetinę prieigą, nes tai reikalauja didžiulių techninių išteklių.

Tekstynai yra puiki priemonė leksikografams bei terminologams ir žaliava žodynams. Kompiuterinės lingvistikos centre parengti keli žodynai tekstynų pagrindu. Iš jų paminėtinas Lietuvių kalbos daiktavardinių frazių žodynas – pirmasis tekstyno duomenimis pagrįstas lietuvių kalbos pastoviųjų junginių žodynas. Žodyne atsispindi didelė pastoviųjų junginių įvairovė: kolokacijos, frazeologizmai, posakiai. Remiantis švietimo ir mokslo politikos sričių tekstynu, sudarytas Švietimo ir mokslo terminų žodynas. Šis žodynas svarbus kaip metodologinis pagrindas, kaip automatiškai atpažinti ir apibrėžti terminus iš specialiojo tekstyno. Rengiant žodyną sukurti tokie įrankiai ir tokia metodologija, kurie leido automatizuoti terminų atpažinimo ir apibrėžimo procesą.

Kodėl kompiuterizuojant kalbą taip svarbu turėti daug reprezentatyvių duomenų? Didelių duomenų kiekis labai padeda lingvistams suvokti, kokia yra dabartinė kalba, o tokius apibendrinimus galima daryti iš realaus teksto, o ne iš gramatikų išgalvotų arba iš senų tekstų paimtų sakinių, be to, svarbu, kad, turint pakankamai duomenų, galima ne tik kokybiškai, bet ir kiekybiškai įvertinti kalbos reiškinius: ar tam tikras reiškinys dažnas kalboje, kaip vartojamas ir pan. Didieji duomenys itin reikalingi apmokant kalbos apdorojimo įrankius, nes dažnai nuo to, kiek turime gerų duomenų, priklausys, kokiu tikslumu įrankis veiks, o tai lems, kiek jis bus tinkamas kokybiškoms kalbos technologijoms kurti.

KLC projektuose dirbantys tyrėjai įsitikinę, kad kuo daugiau dėmesio Lietuvoje bus skiriama kalbos technologijoms, tuo daugiau galimybių lietuvių kalba ir Lietuvos visuomenė turės toliau vystytis XXI amžiuje. Kompiuterinė lingvistika, kalbos technologijos – tai sritis, kurioje yra puikios galimybės universitetų, verslo ir politikos bendradarbiavimui, o tokio bendradarbiavimo rezultatai gali būti aktualūs tiek teoriškai (moksle), pavyzdžiui, sudaryti geresnes sąlygas lietuvių kalbos analizei, tiek praktiškai (viešajame sektoriuje), pavyzdžiui, kuriant naujus įrankius, kurie galėtų išplėsti Lietuvos vartotojų galimybes arba optimizuoti verslo ir valstybės administravimo procesus.

Pranešimo autoriai: Andrius Utka, Agnė Bielinskienė, Loïc Boizou, Jolanta Kovalevskaitė, Vaidas Repečka, Erika Rimkutė.