Eesti keele A2–C1-taseme kirjalike tekstide võrdlev automaatanalüüs

Kais Allkivi-Metsoja

Abstract


Tänaseni puudub ülevaade eesti keele kui sihtkeele õppijate tekstiloomest eri keeleoskustasemetel, mis põhineks tekstide automaatanalüüsi andmete statistilisel töötlusel. Eesmärk on kindlaks teha, millised arvuliselt mõõdetavad tunnused iseloomustavad A2–C1-taseme eksamite loovkirjutiste leksikaalset keerukust ning sõnaliikide ja -vormide kasutust, olles seejuures keeleoskustasemete piiritlemisel nii statistiliselt kui ka sisuliselt olulised. Esile tulevad järjestikuseid tasemeid (A2–B1, B1–B2, B2–C1) läbivalt ja osaliselt eristavad tunnused. Ühed neist muutuvad lineaarselt kasvavas või kahanevas suunas, teiste tunnuste lõikes ei ole muutused aga samasuunalised ja seostuvad pigem kirjutamisülesande (teksti liik, teema) kui keelekasutuse kasvava keerukusega. Uurimuse tulemused pakuvad uudseid teadmisi keeleõppe seisukohalt ja aitavad edaspidi arendada keeleoskustaseme automaathindajat, tuues välja usaldusväärsemad tunnused tasemete prognoosimiseks.

***

Written Estonian at the levels A2–C1: Comparative automated analysis

To achieve the communicative purposes of the language proficiency levels defined in the Common European Framework of Reference for Languages (CEFR), a learner needs to acquire lexical and grammatical tools specific to the target language (L2). Yet there is little empirical evidence on language-specific features that mark the development from one level to another. This study aims to determine which linguistic features distinguish A2–C1-level written use of Estonian as L2 and how, i.e., which levels differ significantly and what is the direction of change.


Keywords


keele automaattöötlus; keeleoskustasemed; leksikaalne keerukus; morfoloogiline analüüs; kirjalik õppijakeel; eesti keel; natural language processing; CEFR levels; lexical complexity; morphological analysis; written learner language; Estonian

Full Text:

PDF

References


Allkivi, Kais 2016. C1-tasemega eesti keele õppijate ja emakeelekõnelejate kirjaliku keelekasutuse võrdlus verbialguliste tetragrammide näitel [‘Written language use of C1 learners of Estonian and native speakers in comparison: analysis of verb-initial fourgrams’]. – Lähivõrdlusi. Lähivertailuja 26, 54–83. https://doi.org/10.5128/LV26.02

Allkivi-Metsoja, Kais 2021. C1-tasemel eesti keele õppija kirjalik keelekasutus võrdluses emakeelekõnelejaga [‘Written language use of C1 learners of Estonian and native speakers in comparison’]. – Annekatrin Kaivapalu, Pille Eslon (toim.). Eesti keele oskuse arenemine ja arendamine. Kirjalik õppijakeel. Tallinn: EKSA, 205–231.

Alp, Pilvi, Krista Kerge, Hille Pajupuu 2013. Measuring lexical proficiency in L2 creative writing. – Jozef Colpaert, Mathea Simons, Ann Aerts, Margret Oberhofer (Eds.). Language Testing in Europe: Time for a New Framework? Antwerpen: Linguapolis Universiteit Antwerpen, 274–286.

Armstrong, Richard A. 2014. When to use the Bonferroni correction. – Ophthalmic & Physiological Optics 34 (5), 502–508. https://doi.org/10.1111/opo.12131

Arnold, Taylor, Nicolas Ballier, Thomas Gaillat, Paula Lissón 2018. Predicting CEFRL levels in learner English on the basis of metrics and full texts. – Conférence sur l’Apprentissage Automatique, INSA Rouen. https://arxiv.org/pdf/1806.11099.pdf (22.8.2021).

Bartning, Inge, Maisa Martin, Ineke Vedder (eds.) 2010. Communicative Proficiency and Linguistic Development. Intersections between SLA and Language Testing Research. EuroSLA Monograph Series 1. European Second Language Association.

Delacre, Marie, Christophe Leys, Youri L. Mora, Daniël Lakens 2019. Taking parametric assumptions seriously: Arguments for the use of Welch’s F-test instead of the classical F-test in One-Way ANOVA. – International Review of Social Psychology 32 (1), a13. https://doi.org/10.5334/irsp.198

Eslon, Pille 2010. Suundumustest eesti keele grammatiliste käänete kasutuses [‘Tendencies in the use of grammatical cases in Estonian’]. – Pille Eslon, Katre Õim (toim.). Korpusuuring ja meetodid. Tallinna Ülikooli eesti keele ja kultuuri instituudi toimetised 12. Tallinn: TLÜ EKKI, 7−36.

Eslon, Pille 2021. Eesti keele kasutamine A2- ja B1-taseme tekstides soome- ja venekeelsete õppijate näitel [‘Estonian language usage in the texts of A2 and B1 language proficiency level among Russian and Finnish students’]. – Annekatrin Kaivapalu, Pille Eslon (Toim.). Eesti keele oskuse arenemine ja arendamine. Kirjalik õppijakeel. Tallinn: EKSA, 117–204.

CEFR 2001 = Common European Framework of Reference for Languages: Learning, Teaching, Assessment. Cambridge: Cambridge University Press.

CEFR 2018 = Common European Framework of Reference for Languages: Learning, Teaching, Assessment. Companion Volume with New Descriptors. Strasbourg: Council of Europe Publishing.

Granger, Sylviane, Martin Wynne 1999. Optimising measures of lexical variation in EFL learner corpora. – John M. Kirk (Ed.). Corpora Galore. Amsterdam/Atlanta: Rodopi, 249−257.

Hancke, Julia 2013. Automatic Prediction of CEFR Proficiency Levels Based on Linguistic Features of Learner Language. MA Thesis. Universität Tübingen.

Harrison, Julia, Fiona Barker (eds.) 2015. English Profile in Practice. Cambridge: Cambridge University Press.

Heylighen, Francis, Jean-Marc Dewaele 2002. Variation in the contextuality of language: An empirical measure. − Foundations of Science 7 (3), 293−340. https://doi.org/10.1023/A:1019661126744

HTM 2007 = Euroopa keeleõppe raamdokument: õppimine, õpetamine, hindamine [‘CEFR’]. Tartu: Haridus- ja Teadusministeerium, 2007.

Hulstijn, Jan H. 2014 The Common European Framework of Reference for Languages: A challenge for applied linguistics. − International Journal of Applied Linguistics 165 (1), 3−18. https://doi.org/10.1075/itl.165.1.01hul

Kaalep, Heiki-Jaan, Kadri Muischnek 2002. Eesti kirjakeele sagedussõnastik [‘Frequency Dictionary of Written Estonian’]. Tartu: Tartu Ülikooli Kirjastus.

Kasik, Reet 2007. Sissejuhatus tekstiõpetusse [‘Introduction to Textual Study’]. Tartu: Tartu Ülikooli Kirjastus.

Kerge, Krista, Hille Pajupuu, Rene Altrov 2007. Tekst, kontekstuaalsus ja kultuur [‘Text, contextuality and culture’]. – Keel ja Kirjandus 8, 624−637.

Kerge, Krista 2010. Kirjažanrite keeleparameetrid mitme tekstiliigi taustal [‘Linguistic parameters of letter genres with regard to oral and written language’]. – Emakeele Seltsi aastaraamat 55, 32−62.

Kerge, Krista, Anne Uusen, Halliki Põlda 2014a. Teismeea loovkirjutiste sõnavara ja selle hindamine [‘Teenage vocabulary and its assessment in creative writing’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 10, 157−175. https://doi.org/10.5128/ERYa10.10

Kerge, Krista, Anne Uusen, Halliki Põlda, Helin Puksand 2014b. Loovkirjutiste süntaksimuutujate areng teismeeas [‘Development of syntactic parameters of teenage creative writing’]. – Emakeele Seltsi aastaraamat 59, 46−76. https://doi.org/10.3176/esa59.03

Kirt, Riin 2013. Tasakaalus korpusel põhinevad sagedusloendid ja korpuse sõnavara ning “Eesti keele seletava sõnaraamatu” märksõnaloendi võrdlus [‘Word frequency lists based on the "Balanced Corpus of Estonian" and selective comparison of corpora frequency lists with keywords from the "Explanatory Dictionary of Estonian“‘]. Magistritöö. Tartu: Tartu Ülikool.

Kitsnik, Mare 2018. Iga asi omal ajal: eesti keele B1- ja B2-taseme verbikonstruktsioonid keeleoskuse arengu näitajana [‘All in good time: Estonian B1- and B2-level verbal constructions as indicators of the development of language proficiency’]. Dissertations on Humanities 43. Tallinn: Tallinna Ülikool.

Kossinski, Janek 2018. Masinõppel rajaneva tarkvararakenduse loomine keeleoskustaseme ennustamiseks [‘Development of a language skill prediction software using machine learning’]. Bakalaureusetöö. Tallinn: Tallinna Ülikool.

Kuiken, Folkert, Ineke Vedder 2007. Task complexity and measures of linguistic performance in L2 writing. – International Review of Applied Linguistics in Language Teaching 45 (3), 261–284. https://doi.org/10.1515/iral.2007.012

Lu, Xiaofei 2012. The relationship of lexical richness to the quality of ESL learners’ oral narratives. − The Modern Languages Journal 96, 190−208. https://doi.org/10.1111/j.1540-4781.2011.01232_1.x

McCarthy, Philip M., Scott Jarvis 2007. A theoretical and empirical evaluation of vocd. − Language Testing 24, 459–488. https://doi.org/10.1177/0265532207080767

McCarthy, Philip M., Scott Jarvis 2010. MTLD, Vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. − Behavior Research Methods 42, 381−392. https://doi.org/10.3758/BRM.42.2.381

McEnery, Tony, Richard Xiao, Yukio Tono 2006. Corpus-based Language Studies. An Advanced Resource Book. London/New York: Routledge.

Mikk, Jaan 1979. Õppeteksti keerukus ja õpilaste väljendusoskus [‘The complexity of the text and the students’ expression skills’]. – Viivi Maanso, Jaan Mikk (toim.). Õppeteksti ja õpilaste väljendusoskuse probleeme. Tallinn: Eesti NSV Pedagoogika Teadusliku Uurimise Instituut, lk 7–12.

Mikk, Jaan, Heiki-Jaan Kaalep, Hiie Asser, Siret Linnas, Merje Songe 2003. Muukeelse kooli 4.–9. klassi eesti keele õpikute tekstianalüüs [‘Text analysis of the 4.–9. grade textbooks of the non-Estonian schools’]. Tartu: Tartu Ülikool. https://dspace.ut.ee/handle/10062/50110

Mylläri, Taina 2020. Measuring syntactic complexity in learner Finnish. – Apples: Journal of Applied Language Studies 14 (2), 67−92. https://doi.org/10.47862/apples.99134

Pajupuu, Hille, Krista Kerge 2010. Text-types in speech technology and language teaching. – Jorge Luis Bueno Alonso et al. (eds.). Analizar datos > Describir variación. Vigo: Universidade de Vigo, 380−390.

Pajupuu, Hille, Krista Kerge, Pilvi Alp 2009. Sõnavara loomulik rikkus haritud keeleoskaja tekstides [‘Natural lexical richness in educated language use’]. − Eesti Rakenduslingvistika Ühingu aastaraamat 5, 187−196. https://doi.org/10.5128/ERYa5.12

Pilán, Ildikó 2018. Automatic Proficiency Level Prediction for Intelligent Computer-assisted Language Learning. PhD Thesis. Göteborg: Göteborgs Universitet.

Puksand, Helin, Krista Kerge 2012. Õpikuteksti analüüs kirjaoskuse omandamise kontekstis. – Emakeele Seltsi aastaraamat 57, 162−217. https://doi.org/10.3176/esa57.09

Rowntree, Derek 1981. Statistics without Tears. A Primer for Non-mathematicians. New York: MacMillan Publishing Company.

Rysová, Katerina, Magdaléna Rysová, Jirí Mírovský 2016. Automatic evaluation of surface coherence in L2 texts in Czech. – Proceedings of the 28th international Conference on Computational Linguistics and Speech Processing. Association for Computational Linguistics, 214−228.

Rysová, Katerina, Magdaléna Rysová, Michal Novák, Jirí Mírovský, Eva Hajičová 2019. EVALD: A pioneer application for automated essay scoring in Czech. – The Prague Bulletin of Mathematical Linguistics 113, 9–30. https://doi.org/10.2478/pralin-2019-0004

Siiber, Marten 2018. Rakendus tekstide abstraktsuse hindamiseks [‘An application for evaluating the abstractness of texts’]. https://dspace.ut.ee/handle/10062/62442 (22.8.2021).

Solovyev, Valery, Marina Solnyshkina, Mariia Andreeva, Andrey Danilov, Radif Zamaletdinov 2020. Text complexity and abstractness: Tools for the Russian language. – Proceedings of the International Conference “Internet and Modern Society”, 75–87.

Szügyi, Edit, Sören Etler, Andrew Beaton, Manfred Stede 2019. Automated assessment of language proficiency on German data. – Proceedings of the 15th Conference on Natural Language Processing, 30−39.

Tack, Anaïs, Thomas Francois, Sophie Roekhaut, Cédrick Fairon 2017. Human and automated CEFR-based grading of short answers. − Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications, 169−179.

Treffers-Daller, Jeanine, Patrick Parslow, Shirley Williams 2018. Back to basics: How measures of lexical diversity can help discriminate between CEFR levels. – Applied Linguistics 39 (3), 302–327. https://doi.org/10.1093/applin/amw009

Uiboaed, Kristel 2018. Eestikeelsete stoppsõnade loend [‘List of Estonian stop words’]. http://www.tekstikaeve.ee/blog/2018-04-18-eestikeelsete-stoppsonade-loend

Üksik, Tiiu, Jelena Kallas, Kristina Koppel, Katrin Tsepelina, Raili Pool 2021. Estonian as a second language teacher’s tools. − Proceedings of the Sixteenth Workshop on Innovative Use of NLP for Building Educational Applications, 130−134.

Vajjala, Sowmya, Kaidi Lõo 2013. Role of morpho-syntactic features in Estonian proficiency classification. – Proceedings of the 8th Workshop on Innovative Use of NLP for Building Educational Applications (BEA8), Atlanta, Georgia, June 13 2013. Association for Computational Linguistics, 63–72.

Vajjala, Sowmya, Kaidi Lõo 2014. Automatic CEFR level prediction for Estonian learner text. – Proceedings of the Third Workshop on NLP for Computer-assisted Language Learning. NEALT Proceedings Series 22, 113–127.

Voolaid, Katrin 2018. Vene ja soome lähtekeelega õppijate eesti keele kasutusmustrid (B1-tase) [‘Estonian language usage patterns among Russian and Finnish students (B1 language proficiency level)’]. Magistritöö. Tallinn: Tallinna Ülikool.

Wisniewski, Katrin 2017 Empirical learner language and the levels of the Common European Framework of Reference. – Language Learning 67 (S1), 232–253. https://doi.org/10.1111/lang.12223

Yannakoudakis, Helen, Øistein E. Andersen, Ardeshir Geranpayeh, Ted Briscoe, Diane Nicholls 2018. Developing an automated writing placement system for ESL learners. – Applied Measurement in Education 31, 251–267. https://doi.org/10.1080/08957347.2018.1464447
DOI: http://dx.doi.org/10.5128/LV31.01

Refbacks

  • There are currently no refbacks.


Copyright (c) 2021 Kais Allkivi-Metsoja

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-9290 (print)
ISSN 2228-3854 (online)
DOI  https://doi.org/10.5128/LV.1736-9290