Elektroniniai ištekliai

Morfologinis anotatorius

Automatiškai morfologiškai anotuojant tekstus susiduriama su dideliu morfologiniu daugiareikšmiškumu – reiškiniu, kai tam pačiam žodžiui ar žodžio formai pateikiamos kelios lemos (antraštiniai žodžiai) arba kelios gramatinės pažymos. Nustatyta, kad beveik pusė lietuvių kalbos žodžių ir žodžių formų yra morfologiškai daugiareikšmiai.

Pritaikius statistinius modelius ir panaudojus 1 mln. žodžių pusiau automatiškai parengtą morfologiškai anotuotą tekstyną, sukurtas vienareikšminimo įrankis, kurio tikslumas apie 94 proc. Antraštinių lietuvių kalbos žodžių formų nustatymo tikslumas netgi 99 proc.

Nuoroda

Sakytinės kalbos ir įrašų bazė

Sakytinės kalbos įrašų bazei kaupti panaudoti dvejopo pobūdžio įrašai. Beveik pusę medžiagos sudaro profesionalių diktorių ir aktorių skaitomi tekstai ir įrašai. Tai radijo ir televizijos laidų, radijo spektaklių, pasakų vaikams įrašų fragmentai. Kita dalis – spontaninės kalbos įrašai, kurie įrašyti būtent šiai bazei. Vieni pašnekovai žinojo, kad jų kalba įrašoma, kiti – ne. Įrašius pokalbį pastarųjų buvo prašoma sutikimo naudoti įrašą.

Nuoroda

Teksto funkcijų nustatymo programa

Teksto funkcijų nustatymo programa – priemonė praktiškai įgyvendina originalią tekstų funkcijų nustatymo metodologiją, kuri pagrįsta moksliniu tyrimu. Tekstų funkcijų nustatymo metodas remiasi prielaida, kad tam tikrų labai dažnų lietuvių kalbos žodžių formų pasiskirstymas tekstuose ir statistiniai tekstų požymiai lemia tekstų funkcijas. Ši priemonė leidžia vartotojui be specialių kalbos analizės programų ištirti pasirinktą tekstą trimis lygmenimis: sudaryti žodžių dažnumų sąrašą,  gauti statistines teksto charakteristikas, patikrinti teksto prototipiškumą 6 funkcijoms.

Nuoroda

Lietuvių kalbos daiktavardinių frazių žodyno duomenų bazė

Lietuvių kalbos daiktavardinių frazių žodynas – pirmasis tekstyno duomenimis pagrįstas lietuvių kalbos pastoviųjų junginių žodynas. Žodyne atsispindi didelė pastoviųjų junginių įvairovė: kolokacijos, frazeologizmai, ilgesnės teksto atkarpos (kartais net keli sakiniai). Daiktavardinės frazės nustatytos statistiškai apskaičiavus žodžių traukos tekste įvertį (gravity counts) 100 mln. žodžių apimties Dabartinės lietuvių kalbos tekstyne, reprezentuojančiame 1991–2002 m. rašytinę lietuvių kalbą. Žodyną sudaro beveik 69 tūkst. daiktavardinių frazių.

Nuoroda

Lietuvių kalbos morfemikos duomenų bazė

Lietuvių kalbos morfemikos duomenų bazę sudaro 72 264 žodžių formos: 11 522 būdvardžiai, 30 134 bendriniai daiktavardžiai, 530 įvardžių, 473 skaitvardžiai, 28 273 veiksmažodžiai, 1 332 prieveiksmiai. Internete prieinamoje morfemikos bazėje kol kas nepateikiami tikriniai daiktavardžiai, dalelytės, jungtukais, prielinksniai, jaustukai, ištiktukai.

Nuoroda

Anglų–lietuvių kalbų automatinis vertimo įrankis

Anglų–lietuvių kalbų automatinio vertimo įrankis – mašininio (automatinio) vertimo sistema sukurta vykdant projektą „Internetinė informacijos vertimo priemonė“. Pateikiama 2008 m. programos versija.

Nuoroda

Mokomoji tarties ir kirčiavimo programa

Mokomoji tarties ir kirčiavimo programa skiriama kitakalbiams, besimokantiems lietuvių kalbos; bendrojo lavinimo mokyklų moksleiviams; studentams lituanistams, klausantiems lietuvių bendrinės kalbos fonetikos ir akcentologijos kursų; aukštųjų mokyklų studentams, besidomintiems lietuvių kalbos kultūra.

Ši programa suteikia galimybę įgyti teorinių lietuvių kalbos fonetikos, tarties ir kirčiavimo žinių, pamatyti vizualiai, kaip veikia kalbos padargai tariant konkrečius lietuvių kalbos garsus, mokytis taisyklingos tarties ir kirčiavimo klausantis profesionalių diktorių įrašų ir atliekant praktines užduotis bei pasitikrinti dažniausių žodžių kirčiavimą ir tarimą žodyne.

Nuoroda

Dabartinės lietuvių kalbos tekstynas

Dabartinės lietuvių kalbos tekstynas – visuma elektroninį pavidalą turinčių ir specialia programine įranga aprūpintų tekstų, skirtų filologinei, statistinei, sociologinei ar kitokiai kalbos vienetų vartosenos analizei. Tai visuotinai pripažintas įvairialypis duomenų šaltinis, kuriuo naudojasi įvairių sričių mokslininkai ir praktikai.
Tekstynas yra daugiau bendro pobūdžio nei specialus, parengtas pagal skaitomumo, o ne leidybos tendencijas, tęstinis, ištisų tekstų rinkinys, sudaromas pagal kai kurių kitų Europos kalbų (anglų, vokiečių, danų, čekų ir kt.) tekstynų sandaros principus. Tekstyno dydis, žanrų ir temų įvairovė lemia plačias jo pritaikymo galimybes: jis gali būti naudojamas ir kaip enciklopedinis arba kontekstinis žodynas, ir kaip praktinė lietuvių kalbos mokymo ar mokymosi priemonė, ieškantiems gausių autentiškos lietuvių kalbos pavyzdžių.

Nuoroda

Etnologijos ir tautosakiniai duomenys

Naujos informacijos perteikimo priemonės – mobilūs telefonai, internetas – pakeitė ne tik tautosakos perdavimo būdus, jų dėka atsirado naujų sinkretinių tarpžanrinių reiškinių, kurios netelpa į senų klasifikacijų rėmus. Todėl reikalinga sukurti naują klasifikacijos sistemą pagal naujai atsiradusius požymius.
Į skaitmeninę saugojimo formą įvedami VDU Etnologijos ir folkloristikos katedroje surinkti etnologiniai ir tautosakiniai duomenys bei katedros studentų, doktorantų tiriamieji darbai.

Nuoroda

Lygiagretieji anglų–lietuvių, lietuvių–anglų, čekų–lietuvių, lietuvių–čekų kalbų tekstynai

Lygiagretusis tekstynas gali būti ypač naudingas gerinant vertimo kokybę. Žodynų rengėjai ir kalbos mokymo specialistai lygiagretųjį tekstyną gali panaudoti kaip objektyvų kalbos vartosenos šaltinį. Lygiagretusis tekstynas naudingas ne tik studijuojantiems užsienio kalbas, vertėjams (teoretikams, praktikams), bet ir redaktoriams, stilistams, leidėjams bei žurnalistams.

Nuoroda

Lygiagretusis latvių–lietuvių ir lietuvių–latvių tekstynas LILA

Lietuvių–latvių ir latvių–lietuvių kalbų lygiagretusis tekstynas LILA parengtas 2011–2012 m. vykdant ES tarpvalstybinės Lietuvos–Latvijos bendradarbiavimo programos projektą Humanitarinių mokslų švietimo infrastruktūra Rytų Latvijoje ir Lietuvoje (Kaunas). Šis tekstynas sudarytas pusiau automatiškai, naudojant VDU KLC sukurtą įrankį Aligner 2.0.6.7. Tekstai sulygiagretinti pastraipų ir sakinių lygmeniu. Tekstyną sudaro ne anksčiau kaip 1991 m. publikuoti tekstai.
Bendras tekstyno dydis yra 8 782 050 žodžių: didžiausia yra lietuvių–latvių kalbų tekstų dalis (3 448 745 žodžiai), dvigubai mažiau yra latvių–lietuvių kalbų tekstų (1 695 160 žodžių).

Nuoroda

Kirčiuoklė

Kirčiuoklė – tai programa, kirčiuojanti lietuvišką tekstą. Kirčiavimo įrankį kūrė G. Norkevičius, A. Kazlauskienė, G. Raškinis, A. Vaičiūnas, A. Petrovas. Morfologinė žodžio informacija gaunama naudojant V. Zinkevičiaus sukurtą lemavimo įrankį ir V. Daudaravičiaus parengtą vienareikšminimo įrankį. Pateikiama 2008 m. programos versija.

Nuoroda