Skaitmeniniai ištekliai

2016 m. pradėtas kurti Dvynių kalbos tekstynas

Vykdant LMT remiamą projektą „Netipiškos kalbos raidos specifika: dvynių kalbos atvejis“ pirmą kartą Lietuvoje bus sukaupti sisteminiai ankstyvosios dvynių kalbos raidos duomenys ir atlikta kompleksinė automatizuota jų analizė. Duomenims kaupti, apdoroti ir analizuoti bus pasitelkta kompleksinė mokslinio tyrimo metodika, integruojanti ilgalaikio natūraliojo stebėjimo, tekstynų lingvistikos ir statistinės analizės metodus.

Projekto tikslas – nustatyti esmines ankstyvosios dvynių kalbos raidos ypatybes atsižvelgiant į gramatinės (ypač – morfologinės) lietuvių kalbos sistemos ir ankstyvojo žodyno specifiką.

Sakytinės lietuvių kalbos tekstynas

Sakytinės (spontaninės ir paruoštos) lietuvių kalbos (monologų, dialogų ir polilogų, vykstančių tiesiogiai arba telefonu privačioje, pusiau viešoje ar viešoje erdvėje) garso įrašai, transkribuoti ir morfologiškai anotuoti CHILDES programa. Tekstynas sukauptas vykdant projektą: Sakytinės lietuvių kalbos tekstyno kūrimas (2007–2008 m.). Finansuota VMSF.

Tekstyno apimtis: 226 168 morfologiškai anotuoti žodžiai. Garso įrašai saugomi .wma ir .mp3 formatais, tekstynas – .cha ir .mor.cex formatais. Tekstynas prieinamas internetu: http://donelaitis.vdu.lt/sakytines-kalbos-tekstynas/

Lietuvių vaikų ilgalaikio stebėjimo duomenų tekstynas

1994–2008 m. ilgalaikio stebėjimo metodu sukaupti lietuvių vaikų ir tėvų pokalbių įrašai, transkribuoti ir morfologiškai anotuoti CHILDES programa.

Tekstyno apimtis: 357 138 morfologiškai anotuoti žodžiai. Garso įrašai saugomi .wma ir .mp3 formatais bei garsajuostėse, tekstynas – .cha ir .mor.cex formatais.

Priešmokyklinio ir mokyklinio amžiaus vaikų kalbos tekstynas

Ilgalaikio stebėjimo ir pusiau eksperimentiniu metodais sukaupti priešmokyklinio amžiaus vaikų kalbos (monologų ir dialogų) įrašai, transkribuoti ir morfologiškai anotuoti CHILDES programa. Tekstynas sukauptas vykdant projektą: Lietuvių vaikų kalba: įtakos ir tendencijos(2009–2011). Finansuota LMT.

Tekstyno apimtis: 120 836 morfologiškai anotuoti žodžiai (tekstynas pildomas naujais duomenimis). Garso įrašai saugomi .wma ir .mp3 formatais, tekstynas – .cha ir .mor.cex formatais.