Leksikograafide ja keeleõppijate hinnangud automaatselt tuvastatud korpuslausete sobivusele õppesõnastiku näitelauseks

Kristina Koppel

Abstract


Artiklis analüüsitakse, kas automaatselt valitud autentsed korpuslaused sobivad Eesti Keele Instituudi leksikograafide ning Tartu ja Tallinna ülikooli eesti keelt teise keelena rääkivate üliõpilaste hinnangul eesti keele B2–C1-keeleoskustaseme õppesõnastiku näitelauseks. Selleks viidi läbi uurimus, kus leksikograafid ja keeleõppijad hindasid nelja tüüpi lauseid: tööriista GDEX ehk Good Dictionary Example eesti mooduli versiooni 1.4 parameetrite järgi head ja halvad korpuslaused, filtreerimata korpuslaused ning leksikograafide koostatud näitelaused.

Artiklis antakse esmalt ülevaade e-leksikograafia hetkeseisust Euroopas ja Eestis, sealhulgas sellest, kui palju autentset korpusmaterjali veebisõnastikes kasutatakse. Seejärel kirjeldatakse hindamisülesande ülesehitust ja läbiviimist ning analüüsitakse tulemusi. Leksikograafide ja keeleõppijate hinnangu põhjal kontrollitakse kolme hüpoteesi: korpuslausete filtreerimine on vajalik, GDEXi eesti mooduli versioon 1.4 suudab korpusest tuvastada optimaalsed näitelausete kandidaadid ning välja filtreerida sobimatud, leksikograafi koostatud näitelaused on head näitelaused.


Keywords


korpusleksikograafia; õppeleksikograafia; näitelaused; GDEX; eesti keel

Full Text:

PDF

References


Cook, Paul, Michael Rundell, Jay Han Lau, Timothy Baldwin 2014. Applying a word-sense induction system to the automatic extraction of diverse dictionary examples. – Proceedings of the XVI EURALEX International Congress, 319–328.

Kallas, Jelena, Svetla Koeva, Iztok Kosem, Margit Langemets, Carole Tiberius 2019. Lexicographic Practices in Europe: A Survey of User Needs. ELEXIS – European Lexicographic Infrastructure. https://elex.is/wpcontent/uploads/2019/02/ELEXIS_D1_1_Lexicographic_Practices_in_ Europe_A_Survey_of_User_Needs.pdf (8.4.2019).

Kallas, Jelena, Kristina Koppel, Maria Tuulik 2015. Korpusleksikograafia uued võimalused eesti keele kollokatsioonisõnastiku näitel [‘New possibilities in corpus lexicography based on the example of the Estonian Collocations Dictionary’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 11, 75–94. https://dx.doi.org/10.5128/ERYa11.05

Kaufmann, Nicolas, Thimo Schulze, Daniel Veit 2011. More than fun and money. Worker motivation in crowdsourcing – A study on Mechanical Turk. – Proceedings of the 17th Americas Conference on Information Systems, 1–11.

Kilgarriff, Adam, Milos Husák, Katy McAdam, Michael Rundell, Pavel Rychlý 2008. GDEX: Automatically finding good dictionary examples in a corpus. – E. Bernal, J. DeCesaris (Eds.). Proceedings of the 13th EURALEX International Congress. Barcelona: Institut Universitari de Linguistica Aplicada, Universitat Pompeu Fabra, 425–432.

Kilgarriff, Adam, Pavel Rychlý, Pavel Smr, David Tugwell 2004. The Sketch Engine. – G. Williams, S. Vessier (Eds.). Proceedings of the 11th EURALEX International Congress. Lorient: Université de Bretagne Sud, 105–115.

Koppel, Kristina 2017. Heade näitelausete automaattuvastamine eesti keele õppesõnastike jaoks [‘Automatic detection of good dictionary examples in Estonian learner’s dictionaries’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 13, 53−71. https://dx.doi.org/10.5128/ERYa13.04

Koppel, Kristina 2019. Eesti keele kui teise keele õpikute lausete analüüs ja selle rakendamine eri keeleoskustasemete sõnastike näitelausete automaatsel valikul [‘Analysis of CEFR-graded coursebook sentences and their use for automatic detection of good dictionary examples’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 15, 99–119. https://dx.doi.org/10.5128/ ERYa15.06

Koppel, Kristina, Jelena Kallas 2016. Õppijasõbralik korpuslause: automaatse valiku võimalusi [‘User-friendly corpus sentence: Parameters for automatic selection’]. – Lähivõrdlusi. Lähivertailuja 26, 222−250. https:// dx.doi.org/10.5128/LV26.07

Koppel, Kristina, Maria Khokhlova, Jelena Kallas, Vít Baisa, Vít Suchomel, Jan Michelfeit 2019a. SkELL corpora as a part of the language portal Sõnaveeb: Problems and perspectives. – Iztok Kosem, Tanara Zingano Kuhn, Margarita Correia, Jose Pedro Ferreria, Maarten Jansen, Isabel Pereira, Jelena Kallas, Miloš Jakubíček, Simon Krek, Carole Tiberius (Eds.). Electronic Lexicography in the 21st Century: Smart Lexicography. Proceedings of eLex 2019 conference, 1–3 October 2019, Sintra, Portugal. Brno: Lexical Computing CZ, s.r.o., 519–536.

Koppel, Kristina, Arvi Tavast, Margit Langemets, Jelena Kallas 2019b. Aggregating dictionaries into the language portal Sõnaveeb: Issues with and without a solution. – Iztok Kosem, Tanara Zingano Kuhn, Margarita Correia, Jose Pedro Ferreria, Maarten Jansen, Isabel Pereira, Jelena Kallas, Miloš Jakubíček, Simon Krek, Carole Tiberius (Eds.). Electronic Lexicography in the 21st Century: Smart Lexicography. Proceedings of eLex 2019 conference, 1–3 October 2019, Sintra, Portugal. Brno: Lexical Computing CZ, s.r.o., 434−452.

Kosem, Iztok, Kristina Koppel, Tanara Zingano Kuhn, Jan Michelfeit, Carole Tiberius 2019. Identification and automatic extraction of good dictionary examples: The case(s) of GDEX. – International Journal of Lexicography 32 (2), 119−137. https://dx.doi.org/10.1093/ijl/ecy014

Kuhn, Tanara Zingano 2017. A Design Proposal of an Online Corpus-Driven Dictionary of Portuguese for University Students. PhD thesis. Universidade de Lisboa.

Kuhn, Tanara Zingano, Peter Dekker, Branislava Šandrih, Rina Zviel-Girshin 2019. Crowdsourcing corpus cleaning for language learning – an approach proposal. – Posterettekanne. enetCollect 3th annual meeting, Lisbon, 14-15 March. https://dx.doi.org/10.13140/RG.2.2.31326.48964

Langemets, Margit, Mai Tiits, Udo Uibo, Tiia Valdre, Piret Voll 2018. Eesti keel uues kuues: Eesti keele sõnaraamat 2018 [‘Estonian lexis revisited. The Dictionary of Estonian 2018’]. – Keel ja Kirjandus 12, 942–958.

Leimeister, Jan Marco, Michael Huber, Ulrich Bretschneider, Helmut Krcmar 2009. Leveraging Crowdsourcing: Activation-Supporting Components for IT-Based Ideas Competition. – Journal of Management Information Systems 26, 197–224.

Tavast, Arvi, Margit Langemets, Jelena Kallas, Kristina Koppel 2018. Unified Data Modelling for presenting lexical data: The case of EKILEX. – Jaka Čibej, Vojko Gorjanc, Iztok Kosem, Simon Krek (Ed.). Proceedings of the XVIII EURALEX International Congress: EURALEX: Lexicography in Global Contexts, Ljubljana, 17-21 July 2018. Ljubljana: Ljubljana University Press, Faculty of Arts, 749−761.

Vainik, Ene 2018. Compiling the Dictionary of Word Associations in Estonian: From scratch to the database. – Eesti Rakenduslingvistika Ühingu aastaraamat 14, 229−245. https://doi.org/10.5128/ERYa14.14

ÕS 2018 = Eesti õigekeelsussõnaraamat ÕS 2018 [‘Dictionary of Standard Estonian 2018’]. Maire Raadik, Tiiu Erelt, Tiina Leemets, Sirje Mäearu (Toim.). Tallinn: EKSA.
DOI: http://dx.doi.org/10.5128/LV29.03

Refbacks

  • There are currently no refbacks.


Copyright (c) 2019 Kristina Koppel

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-9290 (print)
ISSN 2228-3854 (online)
DOI  https://doi.org/10.5128/LV.1736-9290