Delovni sklop 3: Stalne besedne zveze

Cilji

  • razvoj metodologije za strojno prepoznavanje in analizo stalnih besednih zvez za potrebe leksikogramatičnega opisa stalnih besednih zvez v sodobni standardni slovenščini
  • strojna analiza stalnih besednih zvez v sodobni standardni slovenščini

Rezultati

Tipologija večbesednih enot

Na podlagi predhodnih analiz pri izdelavi Leksikalne baze za slovenščino (Gantar 2015) in z upoštevanjem mednarodnih smernic za prepoznavanje različnih tipov glagolskih večbesednih enot, ki je bila za 20 različnih jezikov izdelana v okviru evropskega projekta PARSEME (http://typo.uni-konstanz.de/parseme/), je bila izdelana tipologija večbesednih enot (cf. Kosem et al. 2020; Gantar 2021, v tisku), ki temelji na ločevanju med leksikalnimi ali t. i. konceptualnimi večbesednimi enotami, ki so nosilke pomena, in t. i. strukturnimi večbesednimi enotami, ki so relevantne predvsem za računalniško procesiranje jezika. Za namene izdelave računalniške baze smo identificirali naslednje tipe večbesednih enot: a) večbesedne leksikalne enote, ki vključujejo a.1) frazeološke enote s podtipi (pragmatične, paremiološke in citatne) ter a.2) terminološke in neterminološke stalne besedne zveze. Na drugi strani ločimo b) leksikalno-gramatične večbesedne enote, znotraj katerih predvidevamo b.1) kolokacije z razširjenimi kolokacijami, b.2) povratnosvojilne glagole in b.3) glagole s predložmimi morfemi ter obsežno skupino b.4) skladenjskih zvez in b.5) zvez s pomensko oslabljenimi glagoli.

 

Metodologija za avtomatsko prepoznavanje stalnih besednih zvez

V okviru projekta smo izdelali metodologijo za avtomatsko prepoznavanje SBZ v računalniško procesljivem viru in strojno pridobitev podatkov o stalnih besednih zvezah. Metodologija temelji na izdelavi formaliziranih odločevalnih drevesnic, v katerih je s pomočjo strukturnih, semantičnih in skladenjskih testov mogoče zvezo besed prepoznati kot potencialno večbesedno enoto in jo vključiti v ustrezno kategorijo. Za boljšo natančnost prepoznavanja stalnih besednih zvez je bil uporabljen ansambelski pristop, ki kombinira različne osnovne pristope ter avtomatsko izničuje njihove napake. Kot osnovne metode smo uporabili sintaktične metode, statistične metode, informacijsko teoretične metode in metode strojnega učenja na izvedenih značilkah. Kot značilke smo uporabili okoliške besede, n-grame, oblikoskladenjske oznake, n-grame oznak in že omenjene teste, ki upoštevajo specifičnosti slovenskega jezika.

  • Krek, Simon; Gantar, Polona (2021, v tisku). Mehanizem za luščenje in prepoznavanje VLE v korpusu.
  • Škvorc, Tadej; Gantar, Polona; Robnik-Šikonja, Marko (2021, v tisku). Strojno prepoznavanje idiomov z globokimi nevronskimi mrežami.
  • Škvorc, Tadej; Robnik-Šikonja, Marko (2019). »Prepoznavanje idiomatskih besednih zvez z uporabo besednih vložitev«. Uporabna Informatika, letn. 27, št. 3. https://uporabna-informatika.si/index.php/ui/article/view/63.

Leksikon večbesednih enot

Prva različica Leksikona večbesednih enot (Krek et al. 2021) vsebuje seznam 5.264 večbesednih enot z lastnostjo frazema, ki smo ga izdelali na podlagi Leksikalne baze za slovenščino, Slovarja slovenskih frazemov J. Kebra in učnega korpusa ssj500k 2.0. Vsaki frazeološki enoti je v leksikonu pripisana a) ustrezna skladenjska struktura, ki je definirana še glede na število in vrsto sestavin, in b) podatek o skladenjskem razmerju med sestavinami FE, ki temelji na sistemu Jos (Dobrovoljc et al. 2012). Poleg tega so sestavinam večbesedne enote pripisane še oblikoslovne omejitve na ravni besedne vrste in drugih slovničnih kategorij, npr. števila, glagolske osebe ipd. Za vsako FE, ki predstavlja samostojno leksikonsko enoto, je predviden opis pomena oz. pomenov, pri čemer je znotraj posameznega pomena predvidena povezava z variantno in pretvorbeno povezanimi FE, ki so v leksikonu prav tako zastopane kot leksikonske enote. Leksikon predstavlja izhodišča za nadaljnje strukturne in pomenske analize večbesednih enot v sodobni slovenščini ter omogoča njihovo vključevanje v sodobne jezikovne vire.

  • Krek, Simon; Gantar, Polona; Kosem, Iztok; Dobrovoljc, Kaja; Laskovski, Cyprian; Krsnik, Luka; Brank, Janez; Arhar Holdt, Špela; Čibej, Jaka; Robnik Šikonja, Marko; Klemenc, Bojan; Gorjanc, Vojko (2021). Multiword Expressions lexicon extracted from the Gigafida 2.1 corpus, Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1421.
  • Škvorc, Tadej; Gantar, Polona; Robnik-Šikonja, Marko (2020). Dataset of Slovene idiomatic expressions SloIE, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1335.

Analiza večbesednih enot v sodobni standardni slovenščini

Na podlagi izluščenih večbesednih enot iz korpusa GF 2.1 smo izdelali več jezikoslovnih analiz, ki se nanašajo na različne oblikoslovne, skladenjske in pomenske vidike njihovega obnašanja v realnih besedilih sodobne slovenščine. Strukturna analiza je upoštevala variantnost sestavnih elementov večbesedne enote na leksikalni in oblikoslovni ravni, možnost vrivanja neleksikaliziranih elementov v njihovo strukturo ter pomensko povezanost različnih variantnih in pretvorbenih realizacij večbesednih enot. Na podlagi teh analiz smo izdelali pravila za kanonični zapis večbesedne enote v Leksikonu in sistem njihovega povezovanja znotraj računalniško strukturirane baze.

  • Gantar, Polona (2021, v tisku). Zapis frazeoloških enot v Leksikonu večbesednih enot za slovenščino.
  • Gantar, Polona; Krek, Simon; Kuzman, Taja (2017). »Verbal multiword expressions in Slovene«. V: Ruslan Mitkov (ur.): Computational and corpus-based phraseology: zbornik konference, str. 247–259. Cham: Springer. https://link.springer.com/chapter/10.1007/978-3-319-69805-2_18.
TOP