Keeleandmete õigusliku režiimi mõju nende abil loodud keelemudelitele

Aleksei Kelli, Kadri Vider, Arvi Tavast, Krister Lindén, Ramūnas Birštonas, Penny Labropoulou, Age Värv, Irene Kull, Gaabriel Tavits, Carri Ginter


Artikli eesmärgiks on selgitada, millises ulatuses mõjutab keeleandmetele kohalduv õiguslik režiim keelemudelite arendamist ja kasutamist. Autorid lähtuvad oma käsitluses protsessiskeemist, alustades algandmetest ning lõpetades keeletehnoloogiat sisaldavate valmistoodetega (nt kõneliidesega külmik). Keeletehnoloogias kasutatavad algandmed sisaldavad tihti autoriõiguslikult kaitstavaid teoseid, autoriõigusega kaasnevate õiguste objekte (esitus, salvestus) ja isikuandmeid (isiku hääl, isiku kohta käiv muu info), mida säilitatakse annoteerimata ja annoteeritud andmekogudes. Keelandmete õiguslikke küsimusi on juba varem uuritud. Õiguslikult on läbi uurimata aga keelemudelite õiguslikud aspektid. Autorid on seisukohal, et reeglina ei mõjuta keelemudelite edasist õiguslikku staatust kasutatud algandmete õiguslik režiim, sest autoriõigusega kaitstavad teosed mudelis pigem ei säili. Küll aga võib õiguslikke probleeme tekitada isiku hääle kasutamine keelemudelis. Autorid analüüsivad võimalikke lahendusvariante nende probleemide ületamiseks. Artiklis vaadeldakse ka uue autoriõiguse direktiiviga kehtestatavat andmekaeve regulatsiooni ja selle rakendamist keelemudelite loomise kontekstis.


Influence of legal regime of language data on language models

This article aims to explain the extent to which the legal regime applicable to language data affects the development and use of language models. In their approach, the authors follow a process chart, starting from raw data to finished products containing language technology (eg a refrigerator with a speech interface). The raw data used in language technologies often include copyrighted works, objects of related rights (performances, sound recordings) and personal data (voice, other information about the person) stored in non-annotated and annotated databases. The legal issues of language data have already been studied. However, the legal aspects of language models have not been throughly explored. The authors are of the opinion that, as a rule, the legal status of the language models is not affect by the legal status of the used raw language data, since copyrighted works usually do not remain in the model. However, the use of a person’s voice in a language model can create legal problems. The authors analyze possible solutions to overcome these problems. The article also outlines the regulation of data mining introduced by the new copyright directive and its implementation in the context of development of language models.


copyright, personal data, language model, language technology, text and data mining

Full Text:



Andmebaasi direktiiv = Euroopa Parlamendi ja nõukogu direktiiv 96/9/EÜ, 11. märts 1996, andmebaaside õiguskaitse kohta [‘Directive 96191EC of the European Parliament and of the Council on the legal protection of databases’]. EÜT L 77, 27.3.1996, 20-28. (24.10.2019).

AutÕS = Autoriõiguse seadus [‘Estonian Copyright Act’]. RT I 1992, 49, 615 … RT I, 19.03.2019, 13. (15.10.2019).

Autoriõiguse seaduse eelnõu = Autoriõiguse ja autoriõigusega kaasnevate õiguste seaduse eelnõu [‘Estonian Copyright Act project’]. Versioon: 19-7-2014. (24.10.2019).

Berni konventsioon = Berni kirjandus- ja kunstiteoste kaitse konventsioon [‘Berne Convention for the Protection of Literary and Artistic Works’]. RT II 1994, 16, 49. (18.10.2019).

Birštonas, Ramunas; Usonienė, Jurate 2013. Derivative works: Some comparative remarks from the European Copyright Law. – UWM Law Review, 5, 65–80.

C-476/17 = Kohtuasi C-476/17. Pelham GmbH jt vs. Ralf Hütter jt. (29. juuli 2019). (17.12.2019).

C-5/08 = Kohtuasi C-5/08. Infopaq International A/S vs. Danske Dagblades Forening (16. juuli 2009). (15.10.2019).

De Castilho, Richard Eckart; Dore, Giulia; Margoni, Thomas; Labropoulou, Penny; Gurevych, Iryna 2018. A legal perspective on training models for natural language processing. – Nicoletta Calzolari et al. (Eds.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). European Language Resources Association, 1267–1274. (16.10.2019).

Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. [Cs].

Digiühiskonna direktiiv = Euroopa Parlamendi ja nõukogu direktiiv (EL) 2019/790, 17. aprill 2019, mis käsitleb autoriõigust ja autoriõigusega kaasnevaid õigusi digitaalsel ühtsel turul ning millega muudetakse direktiive 96/9/EÜ ja 2001/29/EÜ [‘Directive (EU) 2019/790 of the European Parliament and of the Council on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC’]. (15.10.2019).

EKSS = Eesti keele seletav sõnaraamat 2009 [‘The Explanatory Dictionary of Estonian 2009’]. Margit Langemets, Mai Tiits, Tiia Valdre, Leidi Veskis, Ülle Viks, Piret Voll (Toim.). Eesti keele instituut. (18.12.2019).

Grave, Edouard; Bojanowski, Piotr; Gupta, Prakhar; Joulin, Armand; Mikolov, Tomas 2018. Learning word vectors for 157 languages. [Cs].

IKS = Isikuandmete kaitse seadus [‘Personal Data Protection Act’]. RT I, 04.01.2019, 11. (24.10.2019).

Ilya, Ilin; Aleksei, Kelli 2019. The Use of Human Voice and Speech in Language Technologies: The EU and Russian Intellectual Property Law Perspectives. – Juridica International, 28, 17−27.

Infoühiskonna direktiiv = Euroopa Parlamendi ja nõukogu direktiiv 2001/29/EÜ, 22. mai 2001, autoriõiguse ja sellega kaasnevate õiguste teatavate aspektide ühtlustamise kohta infoühiskonnas [‘Directive 2001/29/EC of the European Parliament and of the Council of 22 May 2001 on the harmonisation of certain aspects of copyright and related rights in the information society’]. (15.10.2019).

Kelli, Aleksei; Tavast, Arvi; Lindén, Krister; Vider, Kadri; Birštonas, Ramunas; Labropoulou, Penny; Kull, Irene; Tavits, Gaabriel; Värv, Age 2019a. The extent of legal control over language data: The case of language technologies. – Kiril Simov, Maria Eskevich (Eds.), Proceedings of CLARIN Annual Conference 2019. Leipzig, Germany: CLARIN, 69–74. (18.3.2020).

Kelli, Aleksei; Lindén, Krister; Vider, Kadri; Kamocki, Pawel; Birštonas, Ramunas; Calamai, Silvia; Labropoulou, Penny; Gavrilidou, Maria; Pavel Straňák 2019b. Processing personal data without the consent of the data subject for the development and use of language resources. – Inguna Skadina, Maria Eskevich (Ed.), Selected Papers from the CLARIN Annual Conference 2018, Pisa, 8–10 October 2018. Linköping: Linköping University Electronic Press, 72−82. (25.10.2019).

Kelli, Aleksei; Vider, Kadri; Kull, Irene; Siil, Triin; Lindén, Krister; Tavast, Arvi; Värv, Age; Ginter, Carri; Meister, Einar 2018. Keeleressursside loomise ja kasutamisega seonduvaid isikuandmete kaitse küsimusi [‘Data protection issues relating to the development and utilisation of language resources’]. – Eesti Rakenduslingvistika Ühingu aastaraamat, 14, 77–94.

Klavan, Jane; Tavast, Arvi; Kelli, Aleksei 2018. The legal aspects of using data from linguistic experiments for creating language resources. – Frontiers in Artificial Intelligence and Applications, 307, 71–78.

TAKS = Teadus- ja arendustegevuse korralduse seadus [‘Organisation of Research and Development Act’]. RT I 1997, 30, 471 … RT I, 19.03.2019, 12. (24.10.2019).

Tarkvaradirektiiv = Euroopa Parlamendi ja nõukogu direktiiv 2009/24/EÜ, 23. aprill 2009 , arvutiprogrammide õiguskaitse kohta (kodifitseeritud versioon) (EMPs kohaldatav tekst) [‘Directive 2009/24/ec of the European Parliament and of the Council on the legal protection of computer programs (Codified version) (Text with EEA relevance)’]. ELT L 111, 5.5.2009, 16-22. (27.10.2019).

Tavast, Arvi; Pisuke, Heiki; Kelli, Aleksei 2013. Õiguslikud väljakutsed ja võimalikud lahendused keeleressursside arendamisel [‘Legal challenges and possible solutions in developing language resources’]. – Eesti Rakenduslingvistika Ühingu aastaraamat, 9, 317–332.

ÜM = Euroopa Parlamendi ja nõukogu määrus (EL) 2016/679, 27. aprill 2016, füüsiliste isikute kaitse kohta isikuandmete töötlemisel ja selliste andmete vaba liikumise ning direktiivi 95/46/EÜ kehtetuks tunnistamise kohta (isikuandmete kaitse üldmäärus) [‘Regulation (EU) 2016/679 of the European Parliament and of the Council on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation)’]. ELT L 119, 4.5.2016, 1-88. (17.10.2019).

WP29 2018 = Artikli 29 töörühm [‘Article 29 Working Party’]. Suunised määruse (EL) 2016/679 kohase nõusoleku kohta Vastu võetud 28. novembril 2017. Viimati muudetud ja muudatused vastu võetud 10. aprillil 2018. (17.12.2019).

WP29 2014 = Article 29 Working Party (WP29). Opinion 05/2014 on Anonymisation Techniques. (17.12.2019).

WP29 2014a = Article 29 Working Party (WP29). Opinion 06/2014 on the notion of legitimate interests of the data controller under Article 7 of Directive 95/46/EC. (17.12.2019).


Common Crawl. (18.3.2020).

Eesti keele puudepank.

Eesti keele spontaanse kõne foneetiline korpus.

Eesti veebikorpus 2013.

Estonian National Corpus 2017.

Google News. (18.3.2020).

OpenSubtitles. (18.3.2020).



  • There are currently no refbacks.

Copyright (c) 2020 Aleksei Kelli, Kadri Vider, Arvi Tavast, Krister Lindén, Ramūnas Birštonas, Penny Labropoulou, Age Värv, Irene Kull, Gaabriel Tavits, Carri Ginter

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563