Ajalooliste tekstide normaliseerimine

Gerth Jaanimäe

Abstract


Ajalooliste tekstide normaliseerimine ehk tänapäevasele kujule viimine võimaldab uurida tekste praeguse keele analüüsivahenditega, otsida tekstidest märksõnu ning võrreldes tänapäevaseid ja vanu kirjakujusid saada paremini aimu keele muutumise kohta. Käesolev artikkel annab ülevaate normaliseerimisest, selle erinevatest meetoditest, mujal maailmas tehtud katsetustest selles valdkonnas ning normaliseerimise põhiproblemaatikast 19. sajandi teisest poolest pärinevate eestikeelsete tekstide näitel.

***

Normalizing historical texts

Normalizing historical texts or in other words converting them to modern spelling enables us to analyze them with tools designed for contemporary language. It also makes it possible to search the texts for different keywords and automatically compare the old spelling to contemporary spelling. This article gives a general overview of normalizing, different methods, previously performed experiments and the main problems in the context of the old Estonian texts from the second half of the 19th century.



Keywords


loomuliku keele töötlus, normaliseerimine, keeleajalugu, korpuslingvistika, mittestandardne keel, NLP, normalizing, language history, corpus linguistics, computational linguistics, language change, non-standard language, digital humanities

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa17.03

Refbacks

  • There are currently no refbacks.


Copyright (c) 2021 Gerth Jaanimäe

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563