Stratified historical corpus of Estonian 1800–1940

Peeter Tinits

Abstract


https://doi.org/10.5128/ERYa19.11

The article introduces a stratified historical corpus of Estonian 1800–1940. A stratified corpus will allow for sociolinguistic comparisons of language use between past authors, considering their background and biographical details (e.g. native dialect area, age cohort, attained education) or the publication details (e.g. genre of publication or publisher). The corpus assembles texts from a number of different public archives and combines it with metadata on their publication details and the author’s background. The corpus at the moment of publication consists of 4,412 works from 1,188 author names, constituting 11% of the works registered in the Estonian National Bibliography from 1800–1940. The author names are associated with biographical information where possible. Three use cases on studying orthographic variation are introduced as examples where the corpus can help study past language communities. The corpus is published online to allow updates as data is improved and more texts are digitized.

***

Eesti kirjakeele kihiline korpus 1800–1940

Artikkel esitleb eesti kirjakeele kihilist korpust 1800–1940. Selle eesmärk on võimaldada sotsiolingvistilisi võrdlusi toonases keelekogukonnas, ühendades korpusandmeid autorite keelekasutusest nende kohta leiduva taustainformatsooniga (nt osadel autoritel sünniaeg, kodumurre, haridustee). Korpus on loodud koondades digiteeritud tekste avalikest allikatest ja digiarhiividest (nt Eesti Rahvusraamatukogu, Kirjandusmuuseum, Tartu Ülikool, Vikitekstid). Metainformatsiooni teoste kohta on kogutud Eesti rahvusibliograafiast ja sellega ühendatud rahvusvahelistest andmebaasidest (VIAF, Wikidata, Saksa rahvusbibliograafia) ning isikuloolistest andmebaasidest ISIK ja VEPER. Metaandmeid on analüüsi hõlbustamiseks puhastatud, harmoniseeritud ja struktureeritud. Artikkel kirjeldab korpuse loomist ja selle sisu. Andmete koondamise tulemusena on kogus 4412 teksti 1188 erineva nimega autorilt, mis hõlmab umbes 11% sellel perioodil Eesti rahvusbibliograafias registreeritud teostest. Autoritega on seotud metainformatsiooni, kus võimalik. Artikkel esitab kolm näidisjuhtu, kus korpusest võib uurimistöös kasu olla: 

1) pikaajaliste trendide analüüsiks keeles, kasutades ka kirjutajate taustainformatsioon; 

2) autorite keelekasutuse muutumist eluea jooksul, sidudes neid väliste muutustega nagu näiteks avaldatud õigekeelsussoovitused; 

3) keelemuutuste mehhanismide uurimine autorite taustainformatsiooni kaudu, näiteks tuues esile põlvkondlikke kihistusi keelekasutuses. 

Toetudes suurele tekstikogule ja tekstidega seotud metaandmetele on võimalik detailsemalt uurida toonast keelekogukonda ning selle rolli eesti keele kujunemises. Korpus on avaldatud veebis, et võimaldada selle uuendamist metaandmete täiendamisel ja uute tekstide digiteerimisel.


Keywords


corpus, language resource, metadata, historical sociolinguistics, sociolinguistic variable, written Estonian

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa19.11

Refbacks

  • There are currently no refbacks.


Copyright (c) 2023 Peeter Tinits

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563