Automaatne ajaväljendite tuvastamine eestikeelsetes tekstides

Siim Orasmaa

Abstract


Artikkel käsitleb eestikeelsete tekstide arvutianalüüsi alamprobleemi: ajaväljendite automaatset tuvastamist tekstist. Ülesanne on püstitatud kaheosalisena: tekstist tuleb üles leida ajaväljendid (piiritleda ajaväljendifraasid) ning normaliseerida leitud ajaväljendite semantika (st esitada semantika eeldefineeritud märgenduskeele raamides). Artiklis kirjeldatakse ajaväljendite tuvastamisel kasutatavat märgenduskeelt ning piiritletakse vaadeldavate ajaväljendite hulk lähtuvalt märgenduskeele (aga ka praktilise analüüsi) võimalustest. Antakse ülevaade loodud reeglipõhise ajaväljendite tuvastaja tööpõhimõtetest ajaväljendite leidmisel ning semantika normaliseerimisel kasutatavatest strateegiatest. Programmi testimiseks moodustatakse Tartu Ülikooli koondkorpuse tekstidest u 70 000-sõnaline korpus, millel parandatakse käsitsi automaatse tuvastamise vead ning hinnatakse tuvastaja töö kvaliteeti.

DOI: http://dx.doi.org/10.5128/ERYa8.10


Keywords


arvutilingvistika; reeglipõhine keeletöötlus; semantiline märgendus; annoteerimine; eesti keel

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa8.10

Refbacks

  • There are currently no refbacks.


Copyright (c) 2012 Siim Orasmaa

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563