Delovni sklop 1: Oblikoslovje in besedotvorje

Cilji

  • razvoj metodologije za slovnični opis slovenščine na ravni oblikoslovja in besedotvorja
  • statistična analiza oblikoslovnih in besedotvornih procesov v sodobni standardni slovenščini
  • izboljšava tabele oznak za slovenski jezik (JOS) ter delovanja statističnega označevalnika

Rezultati

Programski orodji za pripravo korpusnih podatkov

Razvili smo dve prosto dostopni programski orodji za pripravo korpusnih podatkov: orodje Q-CAT je namenjeno jezikoslovnemu označevanju in analizi korpusnih besedil na oblikoslovni in višjih označevalnih ravneh, kot so večbesedne enote, skladnja in semantika. Orodje LIST pa omogoča statistično obdelavo velikih korpusov in izvoz jezikovnih podatkov na ravneh besednih delov, besed in besednih nizov. Za oba programa smo pripravili priročnik za uporabo in delovanje predstavili strokovni javnosti na projektnem dogodku.

 

Urejeni statistični korpusni podatki

S pomočjo programa LIST smo pripravili bogate podatkovne izvoze iz referenčnega korpusa pisne standardne slovenščine Gigafida 2.0 in referenčnega korpusa govorjene slovenščine GOS. Izvozi, ki so odprto dostopni na repozitoriju CLARIN.SI, prinašajo frekvenčno urejene korpusne podatke na različnih ravneh, od posameznih črkovnih pojavitev, besednih delov, besednih oblik in lem do besednih nizov različnih dolžin. Vsebino in obliko podatkov smo pregledno predstavili v publikaciji Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0, ki je na voljo v slovenskem in angleškem jeziku.

  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0. Ljubljana: Znanstvena založba Filozofske fakultete. https://doi.org/10.4312/9789610604013.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). A Guide to Frequency Lists from the Gigafida 2.0 and GOS 1.0 Corpora. Ljubljana: Ljubljana University Press, Faculty of Arts. https://doi.org/10.4312/9789610604006.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Frequency lists of character-level n-grams from the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1363.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Frequency lists of word-level n-grams from the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1365.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Consonant-vowel structures in the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1367.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Frequency lists of word parts from the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1366.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Frequency lists of words from the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1364.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Consonant-vowel structures in the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1289.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2019). Frequency lists of character-level n-grams from the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1272.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2019). Frequency lists of words from the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1273.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2019). Frequency lists of word-level n-grams from the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1274.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2019). Frequency lists of word parts from the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1275.

 

Bazi podatkov z oblikoslovnimi in besedotvornimi informacijami

Pomemben rezultat projekta sta bazi podatkov z oblikoslovnimi in besedotvornimi informacijami, ki temeljita na leksikonu besednih oblik za slovenščino Sloleks 2.0. V prvi omenjeni bazi je 96.290 leksikonskim iztočnicam (samostalniki, glagoli, pridevniki in prislovi) pripisana koda vzorca, po katerem se oblikoslovno pregibajo. Metodologijo priprave smo v znanstvenem članku predstavili na primeru vzorcev za samostalnik. Druga baza podatkov pa prinaša 66.347 parov leksikonskih iztočnic, ki so bile strojno in na osnovi ročno oblikovanih pravil prepoznane kot besedotvorno sorodne. Obe bazi imata visoko uporabno vrednost za jezikoslovne analize kot tudi za razvoj sistemov, ki so podpora strojni organizaciji novih leksikonskih enot na osnovi korpusnih podatkov.

  • Arhar Holdt, Špela; Čibej, Jaka; Laskowski, Cyprian; Krek, Simon (2020). Morphological patterns from the Sloleks 2.0 lexicon 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1411.
  • Čibej, Jaka; Arhar Holdt, Špela; Krek, Simon (2020). List of word relations from the Sloleks 2.0 lexicon 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1386.
  • Arhar Holdt, Špela; Čibej, Jaka (2018). »Oblikoslovni vzorci v leksikonu Sloleks: izhodiščni nabor za samostalnike«. Slovnične raziskave za jezikovni opis. Slovenščina 2.0, Tematska številka, letn. 6, št. 2, str. 33–66. https://www.dlib.si/details/URN:NBN:SI:DOC-C6R9113Q.

 

Učni korpus za slovenščino

Pod okriljem projekta smo izboljšali učni korpus ssj500k, ki je osnova za razvoj označevalnih orodij za različne ravnine, od tokenizacije, segmentacije in lematizacije prek oblikoskladnje, večbesednih zvez, imenskih entitet, odvisnostne skladnje in udeleženskih vlog. Učni korpus v različici 2.2 je na voljo na repozitoriju CLARIN.SI, predstavili pa smo ga tudi v dveh konferenčnih prispevkih.

  • Krek, Simon; Erjavec, Tomaž; Dobrovoljc, Kaja; Gantar, Polona; Arhar Holdt, Špela; Čibej, Jaka; Brank, Janez (2020). »The ssj500k training corpus for Slovene language processing«. V: Darja Fišer, Tomaž Erjavec (ur.): Jezikovne tehnologije in digitalna humanistika: zbornik konference, str 24–33 Ljubljana: Inštitut za novejšo zgodovino. http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_Krek-et-al_The-ssj500k-Training-Corpus-for-Slovene-Language-Processing.pdf.
  • Bon, Mija; Gantar, Polona (2019). »Levels of annotation in the Slovene Training Corpus ssj500k 2.2«. Jazykovedný časopis, 10th International Conference NLP, Corpus Linguistics, Language Dynamics and Change, Bratislava, Slovakia, letn. 70, št. 2, str. 390–399. https://doi.org/10.2478/jazcas-2019-0068.
  • Krek, Simon; Dobrovoljc, Kaja; Erjavec, Tomaž; Može, Sara; Ledinek, Nina; Holz, Nanika; Zupan, Katja; Gantar, Polona; Kuzman, Taja; Čibej, Jaka; Arhar Holdt, Špela; Kavčič, Teja; Škrjanec, Iza; Marko, Dafne; Jezeršek, Lucija; Zajc, Anja (2019). Training corpus ssj500k 2.2, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1210.

 

Razvoj strojnega oblikoslovnega označevanja

Na podlagi izboljšane učne množice in analiz obstoječih slovničnih označevalnikov smo razvili novo označevalno orodje za lematizacijo in oblikoskladenjsko analizo besedil v slovenščini (t. i. metaoznačevalnik), s katerim je bil strojno označen tudi referenčni korpus pisne slovenščine Gigafida 2.0. Glede na to, da je v času izvajanja projekta prišlo do skokovitega porasta metod strojnega učenja na temelju nevronskih mrež, smo za izhodišče nadaljnjih sorodnih raziskav opravili njihovo pilotno evalvacijo za slovenščino, jih nadgradili z integracijo oblikoslovnega leksikona Sloleks in raziskali njihovo učinkovitost za strojno označevanje korpusov govorjenega jezika.

  • Krek, Simon; Arhar Holdt, Špela; Erjavec, Tomaž; Čibej, Jaka; Repar, Andraž; Gantar, Polona; Ljubešić, Nikola; Kosem, Iztok; Dobrovoljc, Kaja (2020). »Gigafida 2.0: the reference corpus of written standard Slovene«. V: Nicoletta Calzolari (ur.): LREC 2020: Twelfth International Conference on Language Resources and Evaluation: zbornik konference, str. 3340–3345. Paris: ELRA – European Language Resources Association. https://www.aclweb.org/anthology/2020.lrec-1.409.
  • Dobrovoljc, Kaja; Erjavec, Tomaž, Ljubešić, Nikola (2019). »Improving UD processing via satellite resources for morphology«. V: UDW 2019, Third Workshop on Universal Dependencies (UDW, SyntaxFest 2019), zbornik konference, str. 24 –34. Paris, France. Stroudsburg: Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-8004/.
  • Dobrovoljc, Kaja; Martinc, Matej (2019). »Er ... well, it matters, right? On the role of data representations in spoken language dependency parsing«. V: Marie-Catherine de Marneffe, Teresa Lynn, Sebastian Schuster (ur.): Second Workshop on Universal Dependencies (UDW 2018), zbornik konference, str. 37–46. Brussels. Strasbourg: Association for Computational Linguistics. https://www.aclweb.org/anthology/W18-6005/.
  • Ljubešić, Nikola; Dobrovoljc, Kaja (2019). »What does neural bring? Analysing improvements in morphosyntactic annotation and lemmatisation of Slovenian, Croatian and Serbian«. V: Tomaž Erjavec in dr. (ur.): 7th Workshop on Balto-Slavic Natural Language Processing, zbornik konference, str. 29–34. Firenze, Italy. Stroudsburg: The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-3704/.
  • Ljubešić, Nikola (2018). Meta-tagger, programska koda na GitHub, Slovenian language resource repository CLARIN.SI, https://github.com/clarinsi/meta-tagger.

 

Medprojektna povezovanja

Projektna spoznanja in jezikovne vire smo pri delu na projektu Kauč (Za kakovost slovenskih učbenikov) uporabili za razvoj in testiranje berljivosti slovenskih besedil.

TOP