Eesti lastekeele korpuse morfoloogilise märgendamise kitsaskohtadest

Kristiina Vaik, Virve-Anneli Vihman

Abstract


Artikli eesmärk on anda ülevaade sellest, mis raskendab avalikult kättesaadava eesti lastekeele korpuse automaatset morfoloogilist märgendamist ning anda soovitusi, kuidas tulevaste korpuste märgendamist ja standardiseerimist analüüsi tarbeks paremaks muuta. Analüüsisime korpust kirjakeelele mõeldud morfoloogiaanalüsaatori abil. Automaatse analüüsi järel vaatasime, kui suur osa sõnadest sai analüüsi või jäi analüsaatorile tundmatuks nii alamkorpuste kui lapse- ja hoidjakeele lõikes. Selgus, et analüüsi saanud sõnade osakaal igas alamkorpuses varieerus hoidjakeeles 94–98% ja lastekeeles 57–96% vahel. Suurt rolli mängib lindistuste üleskirjutamisviis: hoidjakeelt kirjutatakse üles kirjakeelele sarnaselt, kuid lastekeeles lähtutakse kuuldeortograafiast. Kõik alamkorpused küll järgivad CHILDES-i transkriptsioonisüsteemi ettekirjutusi, ent iga alamkorpus on koostatud erinevaid eesmärke silmas pidades ja on erineva transkribeerimisstiiliga, millest järjepidevalt kinni ei peeta. Märgenduse tulemust hindasime käsitsi läbivaatamise teel. Artiklis toome välja, millised olid nii tundmatuks jäänud kui vale analüüsi saanud sõnade sagedasemad probleemid ja pakume võimalikke lahendusi.

"Issues in morphological annotation of the Estonian child language corpus"

This article presents the results of an initial attempt to automatically annotate the currently existing, publicly available Estonian child language corpus morphologically. CLAN software is not suitable for morphological analysis of Estonian, but Estonian language technology resources are available for written language and can be adapted to spoken language and specific genres. The automatic parser provided annotation for 92–98% of words in the child-directed speech and 57–96% of the child speech, with the results for child speech varying across corpora. A manual analysis was also conducted of words which were automatically annotated in a random selection of transcriptions from each corpus. Across corpora, 63–96% of annotated words were correctly annotated. Reasons for the variation are discussed, and obstacles to automatic annotation are identified at various levels.

First, the corpora have been collected and transcribed with various goals and according to differing principles, hence the style and detail of transcription vary greatly across the corpora. Second, even within a single corpus, discrepancies appear in coding which need to be uniformly resolved in order to ensure accurate morphological annotation. Finally, for flagging non-standard or idiosyncratic forms, the implementation of metacodes available for use in the child language corpora would greatly assist the task of automatic morphological parsing. For each corpus, a user dictionary adapted to the particular genre and the particular corpus would need to be developed, including proper names and idiosyncratic words. The marking of errors is a crucial area which needs to be standardised in order to enable automatic annotation. Additionally, five groups of words which received inaccurate annotation were identified, and suggestions are made for transcription of child language corpora in order to ease the task of morphological annotation in the future. 


Keywords


lastekeel, korpus, automaatne märgendamine, transkriptsioon, eesti keel

Full Text:

PDF

References


Argus, Reili 2004. Imitatiivide kohast lastekeeles: reduplikatsioonist, morfoloogiast ja sõnaliigilisest ambivalentsusest. [Imitatives in child language: reduplication, morphology and vague word class distinctions.]– Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 19–34. http://dx.doi.org/10.5128/ERYa1.01

Argus, Reili 2007. Eesti lastekeelekorpuse morfoloogilisest märgendamisest. [Morphological coding of Estonian child language database.] – Tallinna ülikooli keelekorpuste optimaalsus, töötlemine ja kasutamine. Tallinna Ülikooli eesti filoloogia osakonna toimetised 9. Tallinn: Tallinn Ülikooli Kirjastus, 65–86.

Argus, Reili 2008. Eesti lastekeelekorpuse morfoloogiliste vigade märgendamisest ja liigitamisest. [Coding and classification of morphological errors of Estonian child language database.] – Pille Eslon (Toim.), Õppijakeele analüüs: võimalused, probleemid, vajadused. Tallinna Ülikooli eesti filoloogia osakonna toimetised 10. Tallinn: Tallinn Ülikooli Kirjastus, 11–31.

Argus, Reili 2010. Mida teeb tegema-verb hoidjakeeles. [Constructions with the verb tegema 'do, make' in child directed speech.] – ESUKA / JEFUL, 1 (2), 17−34.

Argus, Reili; Kõrgesaar, Helen 2014. Sõnaliigid eesti lapse kõnes ja lapsele suunatud kõnes. [Word classes in the child’s speech and in the child-directed speech.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 10, 37−53. http://dx.doi.org/10.5128/ERYa10.03

Aviad, Alber; MacWhinney, Brian; Nir, Bracha; Wintner, Shuly 2013. The Hebrew CHILDES corpus: transcription and morphological analysis. – Language Resources and Evaluation, 47 (4), 973–1005. https://doi.org/10.1007/s10579-012-9214-z

Behrens, Heike 2008. Corpora in language acquisition research: history, methods, perspectives. – Heike Behrens (Ed.), Corpora in Language Acquisition Research: History, Methods, Perspectives. Trends in Language Acquisition Research, 6. John Benjamins Publishing Company, xi–xxx. http://doi.org/10.1075/tilar.6

Behrens, Heike 2012. Corpus analysis of child language. – Heike Behrens, The Encyclopedia of Applied Linguistics. Blackwell Publishing Ltd, 1214–1222. https://doi.org/10.1002/9781405198431.wbeal0242

Burnard, Lou 2014. What is the Text Encoding Initiative? How to add intelligent markup to digital resources. http://books.openedition.org/oep/426 (11.5.2016). [Introduction; The TEI and XML; The structural organization of a TEI Document.].

CHAT. Codes of the Human Analysis of Transcripts. http://childes.psy.cmu.edu/manuals/CHAT.pdf (29.9.2016).

CHILDES. Child Language Exchange System. http://childes.psy.cmu.edu/data/ (29.9.2016).

CLAN. Computerized Language Analysis. http://childes.psy.cmu.edu/manuals/clan.pdf (29.9.2016).

EKK= Erelt, Mati; Erelt, Tiiu; Ross, Kristiina 2007. Eesti keele käsiraamat. [Handbook of Estonian.]Tallinn: Eesti Keele Sihtasutus.

Hennoste, Tiit 2000. Suulise eesti keele uurimine: transkriptsioon, taust ja korpus. [Research into spoken Estonian: transcription, background, corpus.] – Keel ja Kirjandus, 2, 91–106.

Hennoste, Tiit 2002. Suulise kõne uurimine ja sõnaliigi probleemid. – Renate Pajusalu, Ilona Tragel, Tiit Hennoste, Haldur Õim (Toim.), Teoreetiline keeleteadus Eestis. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 4. Tartu: Tartu Ülikool, 56–73.

Kaalep, Heiki-Jaan; Muischnek, Kadri; Müürisep, Kaili; Rääbis, Andriela; Habicht, Külli 2000. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti keele testkorpuse morfosüntaktilise märgendamise kogemusest. [Do the available morphological descriptions of Estonian work on a real text?] – Keel ja Kirjandus, 9, 623–633.

Kaalep, Heiki-Jaan; Vaino, Tarmo 2000. Teksti täielik morfoloogiline analüüs lingvisti töövahendite komplektis. – Tiit Hennoste (Toim.), Arvutuslingvistikalt inimesele. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1. Tartu: Tartu Ülikool, 87–101.

Kask, Paula Helena 2016. Eesti lastekeele andmete esitus andmepangas CHILDES. [Notation of Estonian child language in CHILDES-system.] Bakalaureusetöö. Tartu Ülikool, filosoofiateaduskond, eesti ja üldkeeleteaduse instituut. http://hdl.handle.net/10062/51867

Laing, Catherine E. 2014a. A phonological analysis of onomatopoeia in early word production. – First Language, 34 (5), 387–405. https://doi.org/10.1177/0142723714550110

Laing, Catherine E. 2014b. Phonological ’wildness’ in early language development: exploring the role of onomatopoeia. – Proceedings of the first Postgraduate and Academic Researchers in Linguistics at York (PARLAY 2013) conference.

MacWhinney, Brian; Snow, Catherine 1985. The child language data exchange system. – Journal of Child Language, 12 (2), 271–296. https://doi.org/10.1017/S0305000900006449

McEnery, Tony; Hardie, Andrew 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge Textbooks in Linguistics. Cambridge University Press. https://doi.org/10.1017/CBO9780511981395

Muischnek, Kadri; Kaalep, Heiki-Jaan; Sirel, Raul 2016. Korpuslingvistiline lähenemine eesti internetikeele automaatsele morfoloogilisele analüüsile. [A corpus-based approach to the automatic morphological analysis of Estonian computer-mediated communication.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 111–127. http://dx.doi.org/10.5128/ERYa7.07

Muischnek, Kadri; Orav, Heili; Kaalep, Heiki-Jaan; Õim, Haldur 2003. Eesti keele tehnoloogilised ressursid ja vahendid. Arvutikorpused, arvutisõnastikud, keeletehnoloogiline tarkvara. Tallinn: Eesti Keele Sihtasutus

Muischnek, Kadri; Vider, Kadri 2005. Sõnaliigituse kitsaskohad eesti keele arvutianalüüsis. [The problems of word class disambiguation in the automatic analysis of Estonian.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 1, 99–114. http://dx.doi.org/10.5128/ERYa1.05

Tomasello, Michael; Stahl, Daniel 2004. Sampling children’s spontaneous speech: how much is enough? – Journal of Child Language, 31 (1), 101–121. https://doi.org/10.1017/S0305000903005944

Vaik, Kristiina 2016. Eesti lapsekeele korpuse morfoloogilisest märgendamisest. [Morphological annotation of the Estonian child language corpus.] Magistritöö. Tartu Ülikool, filosoofiateaduskond, eesti ja üldkeeleteaduse instituut. http://hdl.handle.net/10062/52841

Vihman, Virve-Anneli 2015. Pick it up: A look at referential devices in Estonian Child-Directed Speech. – ESUKA / JEFUL, 6 (2), 63−83. http://dx.doi.org/10.12697/jeful.2015.6.2.03




DOI: http://dx.doi.org/10.5128/ERYa13.13

Refbacks

  • There are currently no refbacks.


Copyright (c) 2017 Kristiina Vaik, Virve-Anneli Vihman

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563