Compiling the Dictionary of Word Associations in Estonian: From scratch to the database

Ene Vainik


The present paper describes the project titled “The Dictionary of Word Associations in Estonian” undertaken by the author at the Institute of the Estonian Language. The general aim of the Dictionary is to provide insights into Estonians’ common-sense mind. It is meant to be a tool of self-reflection for Estonian native speakers and a guide for the foreigners who are eager enough to make themselves familiar with the Estonian cultural patterns of thought. The Dictionary will be published online. The number of keywords was initially limited to approximately 800. Specific emphasis is given to the stage of data collection by implementing the principles of citizen science.


Eesti keele assotsiatsioonisõnastiku loomine: tühjast kohast andmebaasini

Artiklis kirjeldatakse “Eesti keele assotsiatsioonisõnastiku” loomise esimesi etappe kavandamisest kuni algandameid sisaldava andmebaasini. Esmalt antakse ülevaade põhimõistetest (assotsiatsioon, sõna-assotsiatsioon, assotsiatsioonisõnastik vs.assotsiatsiooninormid) ja kirjanduses kasutatavast terminoloogiast. Järgneb ülevaade sõna-assotsiatsioonide uurimise ajaloost ja tuuakse välja sõnastikuprojekti teoreetilised eeldused: a) sõnu iseloomustavad nende seosed teiste sõnadega; b) nende seoste väljatoomine on oluline leksikograafiline ülesanne; c) assotsiatsioone saab tuvastada üksnes inimeste testimise teel.

Järgnevas osas kirjeldatakse tehtud töid ja põhjendatakse praktilisi valikuid. Lahti seletatakse märksõnastiku ja testide koostamise põhimõtted, kodanikuteaduse kampaania käivitamise vajadus inimeste värbamiseks ning selle kulg. Artikli viimases osas põhjendatakse valikut andmete talletamise osas (relatsiooniline baas), kirjeldatakse andmebaasi struktuuri ning andmete impordi protseduure. Tabel 2 annab arvulise ülevaate sõnastiku aluseks olevast andmebaasist.

Artikli lõpus arutletakse tehtud valikute eeliste ja nõrkuste üle. Andmete kogumist kodanikuteaduse raames loeti õnnestunud ettevõtmiseks, seda nii järjest kasvava osalemisaktiivsuse kui ka sooritamisedukuse mõttes (vt tabel 1). Kuna kodanikuteaduse partnerid kalduvad olema naissoost ja kõrgema haridusega, siis kontrolliti nende tegurite mõju statistilise analüüsiga. Tulemused näitasid, et sugu, iga ja amet vastuste stereotüüpsust ei mõjutanud, küll aga kõrgem haridustase. Seega on kogutud andmestikus tõenäoliselt üldpopulatsioonist stereotüüpsemad seosed, mida autor luges aga pigem eeliseks, kuna sõnastiku eesmärk ongi just koguda tüüpilisemaid seoseid ja ainukordsed vastused jäävad andmete suure mahu tõttu igal juhul sõnastikust välja. Kõik vastused koos andmetega vastajate soo, ea, hariduse jm kohta jäävad andmebaasi alles tulevasteks uuringuteks.


word association, mental lexicon, lexicography, e-dictionary, citizen science, crowdsourcing, Estonian

