Eesti keele kui teise keele õpikute lausete analüüs ja selle rakendamine eri keeleoskustasemete sõnastike näitelausete automaatsel valikul

Kristina Koppel


Artikli eesmärk on välja töötada korpuspäringusüsteemi Sketch Engine heade näitelausete tööriista GDEX (Good Dictionary Example) eesti mooduli versioonid, mis aitavad korpusest tuvastada eri keeleoskustasemetele vastavaid eri leksikaalse, süntaktilise ja grammatilise keerukusega näitelause kandidaate. Selleks analüüsin eesti keele kui teise keele õpikute lauseid ning teen kindlaks, missugused parameetrid eri keeleoskustasemeid eristavad. Uute eesti mooduli versioonide aluseks on sõnastike näitelausete analüüsi põhjal loodud GDEX-i eesti mooduli versioon 1.4, mille parameetreid vastavalt õpikulausete analüüsi tulemustele kohandan. Uurimistöö tulemusi rakendades saab luua eri keeleoskustasemete õppekorpused, mis sobivad kasutamiseks sõnastikuportaalides (nt Sõnaveeb), keeleõpperakendustes (nt etSkELL) ja muu õppevara loomisel.  


Analysis of CEFR-graded coursebook sentences and their use for automatic detection of good dictionary examples

The aim of the study was to develop new Estonian GDEX configurations for A-, B- and C-language proficiency levels. GDEX (Good Dictionary Example) (Kilgarriff et al. 2008) is a software module of the corpus query system Sketch Engine (Kilgarriff et al. 2004), which helps to identify good dictionary example candidates from large corpora. In order to identify which specific parameters characterise sentences in each proficiency level, full sentences from the Estonian Coursebook Corpus 2018 were analysed using a program called Analyser of Sentence Parameters developed at the Institute of the Estonian Language. The analyser allows to find out how long the sentences and tokens are, what kind of verb forms are used, what syntactic properties the sentences have etc. The analysis showed that compared to the latest Estonian GDEX configuration 1.4 such parameters as sentence and token length, occurrence of certain verb forms and parts of speech needed to be adjusted. Accordingly, for A-level the sentence length was set to 3–14 tokens (optimal interval 4–7 tokens), for B-level 3–18 tokens (optimal interval 4–12) and for C-level 4–23 tokens (optimal interval 6–14 tokens). A new classifier that penalises tokens longer than 9 characters on A-level and tokens longer than 11 characters on B-level was introduced. On A- and B-levels certain verb forms were penalised or banned from appearing in the sentence. etSkELL – a corpus tool for Estonian language learning – and the dictionary portal Sõnaveeb (Wordweb) are introduced as possible ways to implement the new GDEX configurations output. The results of this paper can be applied in compiling corpora and teaching materials for different language proficiency levels.


korpuslingvistika; korpusleksikograafia; õppeleksikograafia; õppekorpus; eesti keel teise keelena; eesti keel; corpus linguistics; corpus lexicography; corpora; learners’ corpora; Estonian as a second language; Estonian

Full Text:



Eesti keele naabersõnad 2019 [‘The Estonian Collocations Dictionary, ECD’]. Jelena Kallas, Kristina Koppel, Maria Tuulik, Geda Paulsen (Toim.). Eesti Keele Instituut. Sõnaveeb 2019. (14.2.2019).

EKS = Eesti keele sõnaraamat 2019 [‘The Dictionary of Estonian, DicEst’]. Margit Langemets, Mai Tiits, Udo Uibo, Tiia Valdre, Piret Voll (Toim.). Eesti Keele Instituut. Sõnaveeb 2019. (14.2.2019).

etLex. (1.10.2018).

etSkELL. (1.10.2018).

GDEX Editor. (1.10.2018).

Hausenberg, Anu-Reet; Ilves, Marju; Kaivapalu, Annekatrin; Kerge, Krista; Kern, Katrin; Kitsnik, Mare; Krall, Ingrid; Rummo, Karin; Rüütmaa, Tiina 2008. Iseseisev keelekasutaja. B1- ja B2-taseme eesti keele oskus [‘Independent user: B1- and B2-level proficiency in Estonian’]. Tallinn: REKK, Atlex.

Ilves, Marju 2008. Algaja keelekasutaja. A2-taseme eesti keele oskus [‘Estonian for beginners: A2-level Proficiency in Estonian’]. Krista Kerge (Toim.). Tallinn: Eesti Keele Sihtasutus.

​Kallas, Jelena; Koppel, Kristina; Tuulik, Maria 2015. Korpusleksikograafia uued võimalused eesti keele kollokatsioonisõnastiku näitel [‘New possibilities in corpus lexicography based on the example of the Estonian Collocations Dictionary’]. – Eesti Rakenduslingvistika Ühingu aastaraamat, 11, 75–94.

Kallas, Jelena; Koppel, Kristina 2018a. Eesti keele B1-taseme sõnavara [‘Vocabulary lists: B1 Estonian language proficiency level’]. Tallinn: Eesti Keele Instituut. (14.2.2019).

Kallas, Jelena; Koppel, Kristina 2018b. Eesti keele A2-taseme sõnavara [‘Vocabulary lists: A2 Estonian language proficiency level’]. Tallinn: Eesti Keele Instituut. (14.2.2019).

Kallas, Jelena; Koppel, Kristina 2018c. Eesti keele A1-taseme sõnavara [‘Vocabulary lists: A1 Estonian language proficiency level’]. Tallinn: Eesti Keele Instituut. (14.2.2019).

Kilgarriff, Adam; Rychlý, Pavel; Smr, Pavel; Tugwell, David 2004. The Sketch Engine. – G. Williams, S. Vessier (Eds.), Proceedings of the 11th EURALEX International Congress. Lorient, France: Université de Bretagne Sud, 105–115.

Kilgarriff, Adam; Husák, Miloš; McAdam, Katy; Rundell, Michael; Rychlý, Pavel 2008. GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal, J. DeCesaris (Eds.), Proceedings of the 13th EURALEX International Congress. Barcelona: Institut Universitari de Linguistica Aplicada, Universitat Pompeu Fabra, 425–432.

Kitsnik, Mare 2014. Verbivormid B1- ja B2-taseme kirjalikus õppijakeeles [‘Written learner language verb forms at B1 and B2 levels’]. – Eesti ja soome-ugri keeleteaduse ajakiri / Journal of Estonian and Finno-Ugric Linguistics, 5 (3), 9−35.

Kitsnik, Mare 2018. Iga asi omal ajal: eesti keele B1- ja B2-taseme verbikonstruktsioonid keeleoskuse arengu näitajana [‘All in good time: Estonian B1- and B2-level verbal constructions as indicators of the development of language proficiency’]. Humanitaarteaduste dissertatsioonid 43. Tallinn: Tallinna Ülikooli Kirjastus.

Koppel, Kristina 2017. Heade näitelausete automaattuvastamine eesti keele õppesõnastike jaoks [‘Automatic detection of good dictionary examples in Estonian learner’s dictionaries’]. – Eesti Rakenduslingvistika Ühingu aastaraamat, 13, 53−71.

KORP. (1.10.2018).

Kosem, Iztok; Koppel, Kristina; Kuhn, Tanara Zingano; Michelfeit, Jan; Tiberius, Carole 2018. Identification and automatic extraction of good dictionary examples: The case(s) of GDEX. – International Journal of Lexicography.

Langemets, Margit; Tiits, Mai; Uibo, Udo; Valdre, Tiia; Voll, Piret 2018. Eesti keel uues kuues: Eesti keele sõnaraamat 2018 [‘Estonian lexis revisited: The Dictionary of Estonian 2018’]. – Keel ja Kirjandus, 12, 942–958.

Langemets, Margit 2010. Nimisõna süstemaatiline polüseemia eesti keeles ja selle esitus eesti keelevaras [‘Systematic polysemy of nouns in Estonian and its lexicographic treatment in Estonian language resources’]. Tallinn: Eesti Keele Sihtasutus.

Lause parameetrite analüsaator: teksti märgendamise ja statistilise analüüsi tööriist [‘Analyser of Sentence Parameters’]. (1.10.2018).

Penjam, Pille 2008. Eesti kirjakeele da- ja ma-infinitiiviga konstruktsioonid [‘The constructions of DA- and MA-infinitives in Written Estonian’]. Dissertationes philologiae Estonicae Universitatis Tartuensis 23. Tartu: Tartu Ülikooli Kirjastus.

PSV = Eesti keele põhisõnavara sõnastik [‘Basic Estonian Dictionary’]. Jelena Kallas, Mai Tiits, Maria Tuulik (Toim.). Madis Jürviste, Kristina Koppel, Maria Tuulik (Koost.). Tallinn: Eesti Keele Sihtasutus, 2014.

Raamdokument 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine, hindamine [‘CEFR: Learning, teaching and assessment’]. Tartu: Haridus- ja Teadusministeerium, 2007.

Sõnaveeb [‘Dictionary portal Wordweb’]. (14.2.2019).



  • There are currently no refbacks.

Copyright (c) 2019 Kristina Koppel

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563