Cilji
- razvoj metodologije za opis kolokativnosti v sodobni standardni slovenščini
- opis tipov besednozveznih vzorcev za slovenščino z upoštevanjem izbranega nabora slovničnih kategorialnih lastnosti
- strojna analiza kolokacij in koligacij v sodobni standardni slovenščini ter evalvacija rezultatov
Rezultati
Metodologija za opis kolokativnosti v sodobni standardni slovenščini
V projektu smo na podlagi predhodnih evalvacij metodo avtomatskega luščenja kolokacij, ki je temeljila na uporabi orodja Sketch Engine, nadgradili z možnostjo luščenja kolokacijskih podatkov iz skladenjsko razčlenjenega korpusa. Temeljna prednost te metodologije je, da poleg strukturnih podatkov o kolokacijah pri luščenju upošteva tudi skladenjska razmerja znotraj kolokacijskih struktur na podlagi označenih odvisnostnih povezav v korpusu Gigafida 2.1 ter morfosintaktične lastnosti pojavnic znotraj struktur na izvoru ter cilju. Metodologijo je mogoče uporabiti za nadaljnja luščenja kolokacij iz večnivojsko označenih korpusov, s čimer je omogočeno konstantno spremljanje jezikovnih sprememb in njihova vključitev v jezikovne vire.
- Krek, Simon; Kosem Iztok; Gantar; Polona (2021, v pripravi). Opis modela za pridobivanje in strukturiranje kolokacijskih podatkov iz korpusa.
- Kosem, Iztok; Krek, Simon; Gantar, Polona (2020). »Kolokacije v leksikografiji: obstoječe rešitve in izzivi za prihodnost«. Slovenščina 2.0, letn. 8, št. 2, str. 1–27. https://revije.ff.uni-lj.si/slovenscina2/article/view/9338.
- Kosem, Iztok; Krek, Simon; Gantar, Polona; Arhar Holdt, Špela; Čibej, Jaka; Laskowski, Cyprian Adam (2018). »Collocations dictionary of modern Slovene«. V: Jaka Čibej, Vojko Gorjanc, Iztok Kosem, Simon Krek (ur.): 18th EURALEX International Congress: Lexicography in Global Contexts: zbornik konference, str. 989–997. Ljubljana: Ljubljana University Press, Faculty of Arts. https://euralex.org/wp-content/themes/euralex/proceedings/Euralex%202018/118-4-2939-1-10-20180820.pdf.
- Kosem, Iztok; Krek, Simon; Gantar, Polona; Arhar Holdt, Špela; Čibej, Jaka; Laskowski, Cyprian Adam (2018). »Kolokacijski slovar sodobne slovenščine«. V: Darja Fišer, Andrej Pančur (ur.): Jezikovne tehnologije in digitalna humanistika: zbornik konference, str. 133–139. Ljubljana: Znanstvena založba Filozofske fakultete v Ljubljani. http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Kosem-et-al_Kolokacijski-slovar-sodobne-slovenscine.pdf.
Računalniška baza s kolokacijskimi in koligacijskimi podatki
S pomočjo omenjene metodologije je bil izdelan Frekvenčni seznam kolokacij na podlagi korpusa Gigafida 2.1. Seznam vsebuje kolokacije z absolutno frekvenco 10 in več, razdeljene v datoteke, ki ustrezajo 81 vnaprej določenim skladenjskim strukturam. V nabor podatkov je vključen tudi formalni opis skladenjskih struktur z informacijami o omejitvah in tipičnih reprezentacijah na ravni morfosintaktičnih oznak in skladenjskih povezav v korpusu. Zbirka ponuja bogat nabor kolokacijskih podatkov o sodobni slovenščini in predstavlja dobra izhodišča za slovnične analize na besednozvezni ravni, hkrati pa omogoča tudi njihovo strojno procesiranje in uporabo v jezikovnotehnoloških nalogah.
- Krek, Simon; Kosem, Iztok; Gantar, Polona; Arhar Holdt, Špela; Robnik Šikonja, Marko; Klemenc, Bojan; Dobrovoljc, Kaja; Čibej, Jaka; Laskovski, Cyprian; Krsnik, Luka; Gorjanc, Vojko (2021). Frequency lists of collocations from the Gigafida 2.1 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1415.
- Kosem, Iztok; Gantar, Polona; Krek, Simon; Arhar Holdt, Špela; Čibej, Jaka; Laskowski, Cyprian; Pori, Eva; Klemenc, Bojan; Dobrovoljc, Kaja; Gorjanc, Vojko; Ljubešić, Nikola (2019). Collocations Dictionary of Modern Slovene KSSS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1250.
Analiza kolokativnosti v sodobni standardni slovenščini
Izdelana računalniška baza nam je služila za kvantitativno in kvalitativno jezikoslovno analizo kolokativnosti v sodobnem slovenskem jeziku, znotraj katere smo identificirali najproduktivnejše kolokacijske strukture ter analizirali distribucijo leksikalnih elementov v najbolj pogostih kolokacijah glede na tip skladenjske povezave, glede na način izražanja razmerij z oblikoskladenjskimi sredstvi in glede na kategorialne slovnične lastnosti elementov kolokacije. Rezultati analize slovničnih vidikov kolokativnosti so omogočili tudi identifikacijo novih standardizacijskih trendov v sodobni slovenščini hkrati pa so bili uporabljeni tudi pri analizi specializiranega besedišča iz korpusov računalniško posredovane komunikacije in šolskega pisanja.
- Gantar, Polona; Arhar Holdt, Špela; Pollak, Senja (2018). »Leksikalne novosti v besedilih računalniško posredovane komunikacije«. Slavistična revija: časopis za jezikoslovje in literarne vede, letn. 66, št. 4, str. 459–472. https://srl.si/ojs/srl/article/view/2018-4-1-4.
- Rozman, Tadeja; Arhar Holdt, Špela; Pollak, Senja; Kosem, Iztok (2018). »Kolokacije v korpusu Šolar«. Jezik in slovstvo, letn. 63, št. 2/3, str. 117–128. https://www.jezikinslovstvo.com/pdf.php?part=2018%7C2-3%7C117-128.