Program dela

Izhodišče analize pisnega jezika bo korpus Kres, skupaj s potrebnimi primerjalnimi podatki iz korpusa Gigafida in ročno preverjenega učnega korpusa ssj500k. Korpus Kres je iz korpusa Gigafida (1,2 milijarde besed) vzorčeni uravnoteženi podkorpus s 100 milijoni besed. Proces oblikovanja ter vsebina (označenost, metapodatki itd.) korpusov Gigafida in Kres sta opisana v (Logar Berginc in dr. 2012). Vsi korpusi so segmentirani, tokenizirani, lematizirani ter oblikoskladenjsko označeni z označevalnikom Obeliks (Grčar in dr. 2012) po tabeli oznak JOS (Erjavec in Krek 2008). Korpus Kres je bil tudi skladenjsko razčlenjen z razčlenjevalnikom MSTParser (Rupnik in dr. 2012), uvožen je bil v orodje Sketch Engine, ki omogoča različne obdelave statističnih podatkov, med njimi predvsem t. i. besedne skice (Krek in Kilgarriff 2006). Izhodišče analize govorjenega jezika bo korpus Gos (Verdonik in Zwitter Vitez 2011) s približno 1 milijonom besed transkribiranega govora in z uravnoteženostjo po relevantnih kriterijih (demografski, regionalni itd.) ter učni korpus SST (Dobrovoljc 2016). Delo na projektu bo organizirano po treh temah v šestih delovnih sklopih:

TEMA 1. Oblikoslovje in besedotvorje - nivo besed in delov besed

TOP