POS-tagging Tartu Corpus of Estonian Learner English with CLAWS7

Liina Tammekänd, Reeli Torn-Leesik

Abstract


The aim of the study is to examine whether the CLAWS7 tagger is a suitable tool for tagging the Tartu Corpus of Estonian Learner English (TCELE). Extracts were tagged manually and automatically, and the results were compared to calculate the error rate and reveal the possible causes for tagger errors. The error rate was 4.01%. The tagger expectedly experienced some of the disambiguation problems outlined in the CLAWS7 post-editing guide, yet certain tagger errors were also triggered by learner errors.

***

Sõnaliikide märgendamine Tartu inglise õppijakeele korpuses CLAWS7 märgendajaga

Uurimuse eesmärk oli tuvastada, kas CLAWS7 automaatset sõnaliigi märgendajat saab kasutada Tartu inglise õppijakeele korpuse (TCELE) märgendamiseks. TCELE-st juhuslikkuse alusel valitud käsitsi ja automaatselt märgendatud teksti lõike võrreldi omavahel, arvutati automaatse märgendaja veamäär ning analüüsiti märgendamisel tekkinud vigade võimalikke põhjuseid. Automaatse märgendaja veamääraks oli 4,01%. Märgendajal tekkisid ühestusraskused määratlejate ja adverbide, adverbide ja ainsuses olevate noomenite ning adjektiivide ja adverbide märgendamisel. Samuti oli märgendajal raskusi sobiva täpsema märgendi määramisel noomeni ja verbi kategooriates. Nimetatud raskusi mainiti ka CLAWS7 järeltoimetamise juhendis. Lisaks tekkisid märgendajal õppijavigadega seotud raskused. CLAWS7 oluline nõrkus on veel märgendite puudumine relatiivpronoomeni ning samuti sõnade this ja that pronoomenkasutuse jaoks. Vaatamata nimetatud puudustele saab CLAWS7 märgendajat kasutada eestlaste inglise õppijakeele märgendamiseks.


Keywords


Estonian learner English, TCELE, POS-tagging, tagger errors, corpus linguistics; inglise õppijakeel, TCELE, sõnaliikide märgendamine, automaatse märgendaja vead, korpuslingvistika

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa18.15

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Liina Tammekänd, Reeli Torn-Leesik

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563