Delovni sklop 5: Besedni nizi

Cilji

  • razvoj metodologije za luščenje in opis besednih nizov v slovenščini
  • analiza najpogostejših besednih nizov v slovenščini

Rezultati

Programska oprema za luščenje besednih nizov

Na podlagi evalvacije različnih pristopov k luščenju formulaičnih besednih nizov (Dobrovoljc 2018) smo kot del orodja LIST (Krsnik et al. 2019), računalniškega programa za izdelavo frekvenčnih seznamov iz besedilnih korpusov, implementirali tudi modul za luščenje najpogostejših besednih nizov in njihovo razvrščanje glede na različne statistične mere besedne povezovalnosti (pogostost, Dice, MI, MI3, LL, t-test).

 

Seznam najpogostejših besednih nizov v slovenščini

Z orodjem LIST smo izvozili sezname najpogostejših nizov dveh ali več pojavnic na ravni besednih oblik, lem, besednih vrst in oblikoskladenjskih oznak iz referenčnega korpusa pisne standardne slovenščine Gigafida 2.0 (Čibej et al. 2019) in referenčnega korpusa govorjene slovenščine GOS (Čibej et al. 2020), ki dopolnjujejo sorodne začetne sezname iz drugih referenčnih korpusov (Dobrovoljc 2018abcd).

  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2020). Frequency lists of word-level n-grams from the GOS 1.0 corpus 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1365.
  • Čibej, Jaka; Arhar Holdt, Špela; Dobrovoljc, Kaja; Krek, Simon (2019). Frequency lists of word-level n-grams from the Gigafida 2.0 corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1274.
  • Dobrovoljc, Kaja (2018). Gos corpus n-grams 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1195.
  • Dobrovoljc, Kaja (2018). IMP corpus n-grams 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1194.
  • Dobrovoljc, Kaja (2018). Janes corpus n-grams 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1192.
  • Dobrovoljc, Kaja (2018). Kres corpus n-grams 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1193.

 

Jezikoslovna analiza najrelevantnejših besednih nizov in primerjava metod za njihovo prepoznavo

Približno 2.000 statistično najbolj izstopajočih besednih nizov v korpusih Gigafida 2.0 in Gos 1.0 smo zbrali v pilotnem leksikonu formulaičnih besednih nizov v pisni oz. govorjeni slovenščini (Dobrovoljc et al. 2020ab) in jim poleg izkorpusnih statističnih podatkov pripisali še informacijo o skladenjski zgradbi, pragmatični funkciji in potencialni slovarski relevantnosti (Dobrovoljc 2019). Nastala leksikona sta predstavljala podatkovno osnovo za poglobljenejšo jezikoslovno analizo tipov in rabe statistično najbolj izstopajočih nizov v slovenščini (Dobrovoljc 2018, Dobrovoljc 2021) ter primerjavo različnih metod za njihovo prepoznavo v korpusih (Dobrovoljc 2020).

  • Dobrovoljc, Kaja (2021, v pripravi). Leksikon formulaičnih besednih nizov v pisni in govorjeni slovenščini.
  • Dobrovoljc, Kaja (2021, v pripravi). Leksikon formulaičnih besednih nizov v pisni in govorjeni slovenščini.
  • Dobrovoljc, Kaja (2020). »Identifying dictionary-relevant formulaic sequences in written and spoken corpora«. International Journal of Lexicography, letn. 33, št. 4, str. 417–442. https://doi.org/10.1093/ijl/ecaa008.
  • Dobrovoljc, Kaja; Roblek, Rebeka; Vianello, Chiara; Diaci, Ajda; Vuga, Zala (2020). List of formulaic sequences in spoken Slovenian, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1279.
  • Dobrovoljc, Kaja; Roblek, Rebeka; Vianello, Chiara; Diaci, Ajda; Vuga, Zala (2020). List of formulaic sequences in standard written Slovenian, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1280.
  • Dobrovoljc, Kaja (2019). »Annotating formulaic sequences in spoken Slovenian: structure, function and relevance«. V: Annemarie Friedrich, Deniz Zeyrek, Jet Hoek (ur.): LAW XIII, The 13th Linguistic Annotation Workshop, zbornik konference, str. 108–112 Firenze, Italy. Stroudsburg: The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-4013/.
  • Dobrovoljc, Kaja (2018). »Formulaičnost v slovenskem jeziku«. Slovnične raziskave za jezikovni opis. Slovenščina 2.0, Tematska številka, letn. 6, št. 2, str. 67–95. http://www.dlib.si/?URN=URN:NBN:SI:DOC-IYNQSMXC.
TOP