Korpusleksikograafia uued võimalused eesti keele kollokatsioonisõnastiku näitel

Jelena Kallas, Kristina Koppel, Maria Tuulik


DOI: http://dx.doi.org/10.5128/ERYa11.05

Artiklis tutvustame korpusleksikograafia üldisi arengutendentse ja uusi meetodeid. Käsitleme korpuse kui leksikograafilise info allika potentsiaali ning analüüsime, kuidas saab leksikograafilisi andmebaase pool- ja täisautomaatselt genereerida. Vaatleme, mil määral on uusi tehnoloogilisi lahendusi võimalik rakendada Eesti õppeleksikograafias, täpsemalt eesti keele kollokatsioonisõnastiku (KOLS) koostamisel. KOLS on esimene eestikeelne sõnastik, kus rakendatakse andmebaasi automaatset genereerimist nii märksõnastiku kui ka sõnaartikli sisu (kollokatiivse info ja näitelausete) tasandil. Tutvustame sõnastiku koostamise üldisi põhimõtteid ja esitame näidisartikli.


korpusleksikograafia; kollokatsioonisõnastik; korpuspäringusüsteem; sõnastikusüsteem; eesti keel

Full Text:



EKSS = Eesti keele seletav sõnaraamat I–VI. [The Explanatory Dictionary of Estonian.] Margit Langemets, Mai Tiits, Tiia Valdre, Leidi Veskis, Ülle Viks, Piret Voll (Toim.). Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus, 2009.

Jakubíček, Miloš; Kilgarriff, Adam; Vojtěch, Kovář; Rychlý, Pavel; Suchomel, Vit 2013. The TenTen corpus family. – 7th International Corpus Linguistics Conference CL 2013. Lancaster, 125 –127.

Kallas, Jelena 2013. Eesti keele sisusõnade süntagmaatilised suhted korpus- ja õppeleksikograafias. [Syntagmatic Relationships of Estonian Content Words in Corpus and Pedagogical Lexicography.] Tallinna Ülikooli humanitaarteaduste dissertatsioonid 32. Tallinn: Tallinna Ülikool. http://e-ait.tlulib.ee/id/eprint/303

Kallas, Jelena; Tuulik, Maria 2011. Eesti keele põhisõnavara sõnastik: ajalooline kontekst ja koostamispõhimõtted. [The basic dictionary of Estonian: The historical context and the principles of compilation.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 59–75. http://dx.doi.org/10.5128/ERYa7.04

Kilgarriff, Adam 2001. Web as corpus. – Proceedings of the Corpus Linguistics Conference (CL 2001), 13 (Special Issue), 342–344.

Kilgarriff, Adam 2013. Using corpora as data source for dictionaries. – Howard Jackson (Ed.). The Bloomsbury Companion to Lexicography. London: Bloomsbury, 77–96.

Kilgarriff, Adam; Husák, Milos; McAdam, Katy; Rundell Michael; Rychlý, Pavel 2008. GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal, J. DeCesaris (Eds.). Proceedings of the 13th EURALEX International Congress. Barcelona: Institut Universitari de Linguistica Aplicada, Universitat Pompeu Fabra, 425–432.

Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel 2010. Tickbox Lexicography. – S. Granger, M. Paquot (Eds.). eLexicography in the 21st Century: New Challenges, New Applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22–24 October 2009. Louvain-la-Neuve: Presses universitaires de Louvain, 411–418.

Kilgarriff, Adam; Kosem, Iztok 2012. Corpus tools for lexicographers. – S. Granger, M. Paquot (Eds.). Electronic Lexicography. Oxford: Oxford University Press, 31–55.

Kilgarriff, Adam; Rychlý, Pavel; Jakubicek, Milos; Kovář, Vojtěch; Baisa, Vit; Kocincová, Lucia 2014. Extrinsic corpus evaluation with a collocation dictionary task. – Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014).

Kilgarriff, Adam; Rychlý, Pavel; Smrz, Pavel; Tugwell, David 2004. The Sketch Engine. – G. Williams, S. Vessier (Eds.). Proceedings of the 11th EURALEX International Congress. Lorient, France: Université de Bretagne Sud, 105–115.

Kosem, Iztok; Gantar, Polona; Krek, Simon 2013. Automation of lexicographic work: An opportunity for both lexicographers and crowd-sourcing. – I. Kosem, J. Kallas, P. Gantar, S. Krek, M. Langemets, M. Tuulik (Eds.). Electronic Lexicography in the 21st Century: Thinking Outside the Paper. Proceedings of the eLex 2013, 17–19 October 2013, Tallinn, Estonia, 17–19.

Kosem, Iztok; Husák, Milos; McCarthy, Diana 2011. GDEX for Slovene. – I. Kozem, K. Kosem (Eds.). Electronic Lexicography in the 21st Century: New Applications for New Users. Proceedings of the eLex 2011 conference, Bled, 10–12 November 2011, 151–159.

Klosa, Annette 2013. The lexicographical process (with special focus on online dictionaries). – H. R. Gouws, U. Heid, W. Schweickard, H. E. Wiegand (Eds.). Dictionaries. An International Encyclopedia of Lexicography. Supplement Volume: Recent Developments with Focus on Electronic and Computational Lexicography. Berlin–Boston: de Gruyter, 517–524.

Langemets, Margit; Mägedi, Marike; Viks, Ülle 2005. Süntaktiline info sõnastikus: probleeme ja väljavaateid. [Syntactic information in dictionaries: problems and solutions.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 71–98. http://dx.doi.org/10.5128/ERYa1.04

Langemets, Margit; Tiits, Mai; Valdre, Tiia; Voll, Piret 2010. In spe: üheköiteline eesti keele sõnaraamat. [A prospective monolingual Estonian dictionary.] – Keel ja Kirjandus, 11, 793–810.

Laufer, Batia 2011. The contribution of dictionary use to the production and retention of collocations in a second language. – International Journal of Lexicography, 24 (1), 29–49. http://dx.doi.org/10.1093/ijl/ecq039

Leech, Geoffrey 2007. New resources, or just better old ones? The Holy Grail of represantativeness. Corpus linguistics and the web. – M. Hundt, N. Nesselhauf, C. Biewer (Eds.). Language and Computers, Corpus Linguistics and the Web. Rodopi, 133–149.

Lew, Robert 2004. Which Dictionary for Whom? Receptive Use of Bilingual Monolingual and Semi-bilingual Dictionaries by Polish Learners of English. Poznań: Motivex.

MCD 2010 = Macmillan Collocations Dictionary for Learners of English. Australia: Macmillan Education, 2010.

Metslang, Helena; Kibar, Triin 2012. Üldakadeemiline sõnavara. Abivahend eesti keele õppeks kõrgkoolis. [Estonian Academic Vocabulary.] Tallinn: Tallinna Ülikool.

OCDSE 2002 = Oxford Collocations Dictionary for Students of English. Oxford: Oxford University Press, 2002.

Pomikalek, Jan 2011. Removing Boilerplate and Duplicate Content from Web Corpora. PhD thesis. Masaryk University, Brno.

Pomikalek, Jan; Suchomel, Vit 2012. Efficient webc for large text corpora. – Proceedings of the 7th Web-as-Corpus workshop, Lyon, France.

PSV = Eesti keele põhisõnavara sõnastik. Jelena Kallas, Mai Tiits, Maria Tuulik (Toim.). Madis Jürviste, Kristina Koppel, Maria Tuulik (Koost.). Tallinn: Eesti Keele Sihtasutus, 2014.

Rundell, Michael 2012. How the dictionary was created? http://www.macmillandictionaries.com/features/how-dictionaries-are-written/macmillancollocations-dictionary/ ( 29.9.2014).

Tiberius, Carole; Schoonheim, Tanneke (ilmumas). The Algemeen Nederlands Woordenboek (ANW) and its lexicographical process. – Vera Hildenbrandt (Ed.). Der lexikografische Prozess bei Internetwörterbüchern. 4. Arbeitsbericht des wissenschaftlichen Netzwerks “Internetlexikografie”. Mannheim: Institut für Deutsche Sprache.

DOI: http://dx.doi.org/10.5128/ERYa11.05


  • There are currently no refbacks.

Copyright (c) 2015 Jelena Kallas, Kristina Koppel, Maria Tuulik

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563