Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine

Maarja-Liisa Pilvik, Kadri Muischnek, Gerth Jaanimäe, Liina Lindström, Kersti Lust, Siim Orasmaa, Tõnis Türna

Abstract


Artikkel käsitleb digitaalse ressursi loomist aastatest 1866–1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed.  

***

Creating a digital resource from 19th century communal court minute books

This article describes an interdisciplinary attempt to create a digital resource from Estonian communal court minute books dating from 1866−1890, with the focus lying on using contemporary natural language processing tools for analyzing archaic language. The database contains nearly 420 000 tokens in XML-tagged files. The texts are linguistically diverse: the parallel use of old and new spelling systems, dialects, and the background of the parish clerk bring about a lot of language variation. There are also differences in the orthographic choices made during the manual insertion of the texts. For the purpose of linguistic analysis and tagging, automatic morphological analysis and named entity recognition was tested using EstNLTK libraries. A closer examination of the output suggested that it is necessary to use both text normalization and tool adaption for improving the quality of automatic analyses. This would result in tools, which would perform better at analyzing similar texts and which could, therefore, be applied in the automatic analysis crowd-sourced material. Making the communal court minute books accessible and searchable by supplying linguistic and topical information creates a rich digital resource which is subject of interest for many disciplines.  


Keywords


keeletöötlus; automaatne morfoloogia; digihumanitaaria; korpuslingvistika; andmebaasid; keeleajalugu; eesti keel; natural language processing; automatic morphology; digital humanities; corpus linguistics; databases; language history; Estonian

Full Text:

PDF

References


Anepaio, Toomas 2007. Vallakohus – kas ainult talurahva kohus? [‘Communal courts – peasant courts only?’] – Ajalooline Ajakiri, 3 (4), 343–368.

Bollmann, Marcel 2013. POS tagging for historical texts with sparse training data. – Proceedings of the 7th Linguistic Annotation Workshop & Interoperability with Discourse. August 8-9, 2013 Sofia, Bulgaria. Stroudsburg, PA: Association for Computational Linguistics, 11–18. http://aclweb.org/anthology/W13-2300 (6.3.2019).

Hiio, Ene 1996. Ülevaade vallakohtute materjalidest Eesti Ajalooarhiivis [‘Die Übersicht über die Materialen der Gemeindegerichte im Estnischen Historischen Archiv’]. – Artiklite kogumik Eesti Ajalooarhiivi 75. aastapäevaks. Eesti Ajalooarhiivi toimetised, 1 (8), 143–155.

Hint, Mati 2008. Tartu keele avaliku kasutamise taandareng vajab täpset dokumenteerimist [‘Decline of the public use of the South Estonian language needs precise documentation’]. – Keel ja Kirjandus, 7, 553−556.

Kaaristo, Maarja 2004. Peksmine ja löömine Eesti külas 1868–1911 Nursi vallakohtu protokollide näitel. Õigusetnoloogiline perspektiiv [‘Investigation into the records of the communal court of Nursi: the discussion of the beating cases in Estonian rural village society in 1868–1911 in the perspective of legal anthropology’]. – Mäetagused, 27, 31−46.

Kaaristo, Maarja 2006. Vägivald loomade vastu: inimene ja koduloom Lõuna-Eesti külas 19. sajandi II poolel vallakohtute protokollide näitel [‘Violence towards animals: Humans and animals in South-Estonian villages in the second half of the 19th century on the example of parish court records’]. – Mäetagused, 31, 49−62.

Kallio, Petri 2012. The prehistoric Germanic loanword strata in Finnic. – Riho Grünthal, Petri Kallio (Toim.), A Linguistic Map of Prehistoric Northern Europe. Suomalais-ugrilaisen seuran toimituksia 266. Helsinki: Suomalais-ugrilainen seura, 225–238.

Kask, Arnold 1958. Võitlus vana ja uue kirjaviisi vahel XIX sajandi eesti kirjakeeles [‘Struggle between the old and new spelling in 19th-century Standard Estonian’]. Tallinn: Eesti Riiklik Kirjastus.

Kurema, Kristiine 2013. Kuidas kajastus üleminek vanalt kirjaviisilt uuele Peetri kohtuprotokollide keeles [‘Transition from the old orthography to the new during the second half of the 19th century based on the court protocols of Peetri parish’]. – ESUKA / JEFUL, 4 (3), 55–72. https://dx.doi.org/10.12697/jeful.2013.4.3.03

Linnus, Jüri 1970. 19. sajandi talurahvakohtute materjalid rahvakultuuri uurimise allikana [‘19th century communal court materials as a source to study folk culture’]. – Emakeele Seltsi aastaraamat, 16, 231–242.

Loftsson, Hrafn 2013. Tagging the past: Experiments using the Saga corpus. – Stephan Oepen, Kristin Hagen, Janne Bondi Johannessen (Eds.), Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA-2013). Linköping: Linköping University Electronic Press, 89–104.

Must, Aadu 1997. http://www.history.ee/ [Eesti õigusajaloo krestomaatia leheküljest Internetis]. – Kleio, 1, lk 64–65.

Must, Kadri 1998a. Tori vallakohtu protokollid ajalooallikana [‘The records of the communal court of Tori as a historical source’]. – Ajalooline Ajakiri, 3, 93–108.

Must, Kadri 1998b. Tori vallakohtu arhivaalid ajalooallikana. http://www.aai.ee/~urmas/tor/kadri.htm (4.1.2019).

Orasmaa, Siim; Petmanson, Timo; Tkachenko, Alexander; Laur, Sven; Kaalep, Heiki-Jaan 2016. ESTNLTK − NLP toolkit for Estonian. − Proceedings of LREC 2016, 2460–2466.

Petterson, Eva 2016. Spelling Normalisation and Linguistic Analysis of Historical Text for Information Extraction. Studia Linguistica Upsaliensia 17. Uppsala: Uppsala Universitet.

Piotrowski, Michael 2012. Natural language processing for historical texts. – Synthesis Lectures on Human Language Technologies, 5 (2), 1–157. https://doi.org/10.2200/S00436ED1V01Y201207HLT017

Prillop, Külli 2004. Kuidas märksõnastada vanu eestikeelseid tekste? [‘How to lemmatize old Estonian texts’] – Keel ja Kirjandus, 2, 90−99.

Puss, Fred 2018. Kirjaviisivahetus kirikuraamatutes [‘Change of spelling style in parish registers’]. – Emakeele Seltsi aastaraamat, 63 (2017), 166–200. https://dx.doi.org/10.3176/esa63.08

Raag, Raimo 2008. Talurahva keelest riigikeeleks [‘From the language of peasants to state language’]. Tartu: Atlex.

Rögnvaldsson, Eirikur; Helgadóttir, Sigrún 2011. Morphosyntactic tagging of Old Icelandic texts and its use in studying syntactic variation and change. – Caroline Sporleder, Antal van den Bosch, Kalliopi Zervanou (Eds.), Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series. Theory and Applications of Natural Language Processing. Berlin, Heidelberg: Springer, 63–76.

Sánchez-Marco, Cristina; Boleda, Gemma; Padró, Lluís 2011. Extending the tool, or how to annotate historical language varieties. – Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH’11). Portland, Oregon, June 24, 2011. Stroudsburg, PA: Association for Computational Linguistics, 1–9.

Scheible, Silke; Whitt, Richard J.; Durrell, Martin; Bennett, Paul 2011. Evaluating an ‘off-the-shelf’ POS-tagger on Early Modern German text. – Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH’11). Portland, Oregon, June 24, 2011. Stroudsburg, PA: Association for Computational Linguistics, 19–23.

Schmid, Helmut 1995. Improvements in part-of-speech tagging with an application to German. – Proceedings of the ACL SIGDAT-Workshop, 47–50.

Schmid, Helmut; Laws, Florian 2008. Estimation of conditional probabilities with decision trees and an application to fine-grained POS tagging. – Proceedings of the 22nd International Conference on Computational Lingsuistics (COLING 2008). Manchester, United Kingdom, August 18–22, 2008. Stroudsburg, PA: Association for Computational Linguistics, 777–784.

Tkachenko, Alexander; Petmanson, Timo; Laur, Sven 2013. Named entity recognition in Estonian. – Proceedings of the Workshop on Balto-Slavic NLP, 8-9 August 2013, Sofia, Bulgaria. Stroudsburg, PA: Association for Computational Linguistics, 78–83.

Traat, August 1971. Põhijooni vallakohtu arengust Eestis kuni 1866. aastani [‘The key characteristics of parish courts in Estonia till the 1866 reform’]. – Eesti NSV Teaduste Akadeemia Toimetised 20. köide. Ühiskonnateadused 1, 34–45.

Traat, August 1980. Vallakohus Eestis 18. sajandi keskpaigast kuni 1866. aasta reformini [‘Parish courts in Estonia from mid- 18th century to the 1866 reform’]. Tallinn: Eesti Raamat.

Türna, Tõnis 2004. 1860.–80. aastate Lõuna-Eesti vallakohtute protokollid. Massiliste täistekst-andmebaaside loomise, publitseerimise ja kasutamise metoodika [‘South Estonian communal court minute books dating from 1860−1880: methodology of creating a digital resource, publication and use’]. Peaseminaritöö. Tartu: Tartu Ülikool.

Viitso, Tiit-Rein 1985. Läänemeresoome murdeliigenduse põhijooned [‘Main characteristics of dialect classification of Finnic languages’]. – Keel ja Kirjandus, 7, 399–404.

Wiedemann, Ferdinand Johann 2011 [1875]. Eesti keele grammatika. Heli Laanekask (Tõlk.), Ellen Niit (Toim.). Tallinn: Eesti Teaduste Akadeemia Emakeele Selts.

Võrguviited

Eestlased Esimeses maailmasõjas. Rahvusarhiivi ühisloome algatus. http://www.ra.ee/ilmasoda/ (4.1.2019).

EstNLTK = Open source tools for Estonian natural language processing. https://github.com/estnltk/ (12.3.2019).

Saaga. www.ra.ee/saaga (4.1.2019).

Tartu 1867. Tartu linna ja Rahvusarhiivi ühisloome algatus (oktoober 2017 kuni juuli 2018). http://www.ra.ee/tartu1867/ (4.1.2019).

VAKK = Eesti vana kirjakeele korpus. http://vakk.ut.ee/ (4.1.2019).

Vallakohtud. Rahvusarhiivi ühisloomerakendus. http://www.ra.ee/vallakohtud/ (4.1.2019).




DOI: http://dx.doi.org/10.5128/ERYa15.08

Refbacks

  • There are currently no refbacks.


Copyright (c) 2019 Maarja-Liisa Pilvik, Kadri Muischnek, Gerth Jaanimäe, Liina Lindström, Kersti Lust, Siim Orasmaa, Tõnis Türna

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563