Statistilised meetodid murdekorpuse ühendverbide tuvastamisel

Kristel Uiboaed

Abstract


Sõnadevahelise seose tugevuse mõõtmise statistikuid kasutatakse arvutilingvistikas püsiühendite tuvastamisel. Statistikud võimaldavad korpuses kahele sõnale arvutada nendevahelise seose tugevuse väärtuse, mille põhjal võib otsustada, kas tegemist on püsiühendiga või mitte. Statistikute kasutamise eelis on, et arvesse ei võeta ainult sõnade koosesinemise, vaid ka ühendit moodustavate sõnade eraldiesinemise sagedusi. Artiklis teen katse rakendada statistikuid Eesti murrete korpuse kaheliikmeliste ühendverbide automaatsel tuvastamisel. Katsetatud on kolme murderühma peal eraldi nelja statistikut: t-skoori, vastastikuse informatsiooni väärtust MI, hii-ruut statistikut ning log-tõepära funktsiooni.

DOI: http://dx.doi.org/10.5128/ERYa6.19


Keywords


arvutilingvistika; korpuslingvistika; murdeuurimine; meetodid ja vahendid; statistika; eesti keel

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa6.19

Refbacks

  • There are currently no refbacks.


Copyright (c) 2012 Kristel Uiboaed

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563