Nova slovnica sodobne standardne slovenščine: viri in metode

Nacionalni projekt J6-8256

V projektu želimo raziskati jezikoslovne metodološke temelje celostne računalniške analize sodobne pisne in govorjene slovenščine, kakršna je zajeta v novih korpusih slovenskega jezika, ki bo zagotovila empirično osnovo za izdelavo novih empirično zasnovanih slovničnih opisov slovenskega jezika. Na podlagi te metodologije nameravamo izdelati obsežne prosto dostopne korpusne baze podatkov, ki bodo neposredno uporabne pri izdelavi bodočih jezikovnotehnoloških orodij in aplikacij za slovenski jezik. Pridobljene korpusne podatke bomo uporabili za jezikoslovno analizo realnega jezika, kar predstavlja prvi korak na poti do nove empirično zasnovane korpusne slovnice slovenskega jezika.

Predlog projekta temelji na dejstvu, da je v zadnjih treh desetletjih pri opisu jezika opazen premik znanstvene paradigme iz izoliranega raziskovanja jezikovnega sistema, predvsem na ravni fonetike in (morfo)sintakse, v empirično obravnavo, ki ponuja celosten pogled na delovanje jezika v realnih okoliščinah, v povezavi s področji, kot so psihologija, nevrobiologija, umetna inteligenca itd. Za uspešno raziskovanje znotraj novejših jezikoslovnih pristopov so potrebni zanesljivi empirični podatki o različnih jezikovnih pojavih, ki jih lahko zagotovi sodobno računalniško oz. korpusno jezikoslovje s strojno analizo obsežnih zbirk tako pisnega kot govorjenega jezika, ki so za slovenski jezik postale dostopne v zadnjem času.

Delo na projektu bo razdeljeno na več vsebinskih delovnih sklopov, katerih naslovi nakazujejo tipe predlaganih korpusnih analiz: Oblikoslovje in besedotvorje, Kolokacije, Stalne besedne zveze, Vezljivost in Besedni nizi. Izhodišče analize pisnega jezika bo uravnoteženi referenčni korpus Kres, skupaj s potrebnimi primerjalnimi podatki iz korpusa Gigafida in ročno preverjenega učnega korpusa ssj500k. Izhodišče analize govorjenega jezika bosta korpus GOS ter učni korpus govorjenega jezika SST. Vse izluščene zbirke, programska oprema in drugi projektni rezultati bodo prosto dostopni pod odprtimi ali prostokodnimi licencami in organizirani na način, da bodo neposredno uporabni za namen izdelave jezikovnotehnoloških aplikacij.

TOP