Nova slovnica sodobne standardne slovenščine: viri in metode

Nacionalni projekt J6-8256

V projektu smo razvili jezikoslovne metodološke temelje celostne računalniške analize sodobne pisne in govorjene slovenščine, kakršna je zajeta v novih korpusih slovenskega jezika. S tem smo zagotovili osnovo za izdelavo novih empirično zasnovanih slovničnih opisov slovenskega jezika. Na podlagi nove metodologije smo izdelali obsežne prosto dostopne korpusne baze podatkov, ki bodo neposredno uporabne tako pri izdelavi bodočih jezikovnotehnoloških orodij in aplikacij za slovenski jezik, kot tudi za jezikoslovno analizo realnega jezika, ki je prvi korak na poti do nove empirično zasnovane korpusne slovnice slovenskega jezika.

Projekt je temeljil na dejstvu, da je v zadnjih treh desetletjih pri opisu jezika opazen premik znanstvene paradigme iz izoliranega raziskovanja jezikovnega sistema, predvsem na ravni fonetike in (morfo)sintakse, v empirično obravnavo, ki ponuja celosten pogled na delovanje jezika v realnih okoliščinah, v povezavi s področji, kot so psihologija, nevrobiologija, umetna inteligenca itd. Za uspešno raziskovanje znotraj novejših jezikoslovnih pristopov so potrebni zanesljivi empirični podatki o različnih jezikovnih pojavih, ki jih lahko zagotovi sodobno računalniško oz. korpusno jezikoslovje s strojno analizo obsežnih zbirk tako pisnega kot govorjenega jezika, ki so za slovenski jezik postale dostopne v zadnjem času.

Delo na projektu je bilo razdeljeno na več vsebinskih delovnih sklopov, katerih naslovi nakazujejo različne tipe korpusnih analiz: Oblikoslovje in besedotvorje, Kolokacije, Stalne besedne zveze, Vezljivost in Besedni nizi. Izhodišče analize pisnega jezika je bil referenčni korpus pisne standardne slovenščine Gigafida, skupaj s potrebnimi primerjalnimi podatki iz ročno preverjenega učnega korpusa ssj500k. Izhodišče analiz govorjenega jezika je bil referenčni korpus govorjene slovenščine GOS. Vse izluščene zbirke, programska oprema in drugi projektni rezultati so prosto dostopni pod odprtimi ali prostokodnimi licencami in organizirani na način, da so neposredno uporabni za raziskovalno in razvojno skupnost.

Izhodišče analize pisnega jezika je bil segmentiran, tokeniziran, lematiziran, oblikoskladenjsko označen ter strukturno- in pomenskoskladenjsko razčlenjeni referenčni korpus pisne standardne slovenščine Gigafida (Krek et al. 2020a), skupaj s potrebnimi primerjalnimi podatki iz ročno preverjenega učnega korpusa ssj500k (Krek et al. 2020b). Izhodišče analiz govorjenega jezika je bil referenčni korpus govorjene slovenščine GOS (Verdonik in Zwitter Vitez 2011). Vse izluščene zbirke, programska oprema in drugi projektni rezultati so prosto dostopni pod odprtimi ali prostokodnimi licencami in organizirani na način, da so neposredno uporabni za raziskovalno in razvojno skupnost. Delo na projektu je bilo organizirano po treh temah v šestih delovnih sklopih, ki nakazujejo različne vrste korpusnih analiz:

TEMA 1. Oblikoslovje in besedotvorje - nivo besed in delov besed

TEMA 2. Besednozvezna in stavčna skladnja

TEMA 3. Besedni nizi

TOP