Cilji
- razvoj metodologije za leksikogramatični opis vezljivosti v sodobni standardni slovenščini
- strojna analiza vezljivosti v sodobni standardni slovenščini
Rezultati
Metodologija računalniško berljivega opisa sodobne slovenščine
V okviru projekta smo izdelali metodologijo za računalniško berljiv opis vezljivosti v sodobni standardni slovenščini. Metodologija temelji na opisu strojno označenih skladenjskih razmerij v korpusu Gigafida 2.1 in na strojnem pripisu semantičnih vlog udeležencem znotraj argumentne zgradbe stavka. V ta namen smo uporabili nabor udeleženskih vlog in semantičnih oznak, ki je bil izdelan po vzoru češkega vezljivostnega leksikona Vallex (http://ufal.mff.cuni.cz/vallex) in pomensko skladenjskega opisa angleških glagolov v projektu FrameNet (https://framenet.icsi.berkeley.edu/). Metodologija omogoča luščenje stavčnih vzorcev znotraj glagolskega stavka, pri čemer je vsak vzorec definiran s skladenjskimi povezavami, ki sledijo sistemu JOS, in predstavljen s semantičnimi vlogami, ki jih imajo udeleženci znotraj stavčnega vzorca.
- Krek, Simon; Gantar, Polona (2021, v tisku). Analiza vezljivostnih vzorcev v sodobni standardni slovenščini.
- Gantar, Polona; Štrkalj Despot, Kristina; Krek, Simon; Ljubešić, Nikola (2018). »Towards semantic role labeling in Slovene and Croatian«. V: Darja Fišer, Andrej Pančur (ur.): Jezikovne tehnologije in digitalna humanistika: zbornik konference, str. 93–98. Ljubljana: Znanstvena založba Filozofske fakultete v Ljubljani. http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Gantar-et-al_Towards-Semantic-Role-Labeling-in-Slovene-and-Croatian.pdf.
Vezljivostni leksikon
V projektu razvito metodologijo strojnega opisa vezljivostnih vzorcev smo uporabili za izdelavo računalniško berljive baze vezljivostnega leksikona, ki temelji na podatkih iz korpusa Gigafida 2.1 s strojno pripisanimi oznakami na ravni skladenjskih povezav in udeleženskih vlog. Leksikon vsebuje vezljivostne vzorce za 14.595 glagolov, ki so definirani na podlagi skladenjskih odvisnic po sistemu JOS in na podlagi 25 semantičnih vlog (delovalniki, okoliščine in udeleženci znotraj glagolske zveze), identificiranih v primerljivih valenčnih leksikonih za tuje jezike (Vallex, FrameNet ipd.). Za vse vezljivostne vzorce, v katerih se pojavljajo posamezni glagoli, kot tudi za posamezno udeležensko vlogo, ki se pojavlja v vzorcu, so navedeni statistični podatki glede na zastopanost v učnem korpusu ssj500k in korpusu Gigafida 2.1. Vsakemu stavčnemu vzorcu, v katerem se pojavlja določen glagol, je pripisan tudi vsaj en primer iz korpusa GF2.1 in vsi primeri iz učnega korpusa ssj500k. Leksikon je skupaj s formalnim opisom skladenjskih struktur, ki nastopajo v stavčnih vzorcih, seznamom udeleženskih vlog in seznamom identificiranih stavčnih vzorcev dostopen na repozitoriju Clarin.si. Avtomatsko izdelani vezljivostni leksikon predstavlja dobra izhodišča za kvantitativne in kvalitativne analize vezljivosti v sodobni slovenščini in na njihovi podlagi detekcijo problematičnih mest pri avtomatskem procesiranju jezika ter nadaljnje izboljšanje učne množice.
- Krek, Simon; Gantar, Polona; Krsnik, Luka; Laskowski, Cyprian; Dobrovoljc, Kaja; Arhar Holdt, Špela; Čibej, Jaka; Kosem, Iztok; Klemenc, Bojan; Robnik Šikonja, Marko; Gorjanc, Vojko (2021). Valency lexicon extracted from the Gigafida 2.1 corpus, Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1418.