Statistilise keelemudeli adapteerimine eesti keele kõnetuvastuses

Tanel Alumäe

doi:10.5128/ERYa4.01

Statistilise keelemudeli adapteerimine eesti keele kõnetuvastuses

Tanel Alumäe

Abstract

Artiklis käsitletakse eesti keele suure sõnavaraga kõnetuvastuse statistilise keelemudeli adapteerimist. Adapteerimise lähteandmeteks on väike teemaspetsiifiliste lausete korpus. Adapteerimise käigus leitakse varjatud semantika analüüsi (LSA) abil suurest dokumendikorpusest antud teemale lähedaseimad tekstid. Saadud tekstide põhjal konstrueeritakse uus teemaspetsiifiline unigramm-mudel ning see kombineeritakse üldise N-gramm-mudeliga, mille tulemusena saadakse teemale adapteeritud N-gramm-mudel. Artiklis võrreldakse morfeeme, sõnu ja lemmasid adapteerimismudeli põhiühikutena.

Meetodit testitakse raadiouudistesalvestuste tuvastamisel. Tuvastuse esimeses faasis leitakse üldise keelemudeli abil igale uudisnupule tuvastushüpoteesid, mida kasutatakse keelemudeli adapteerimiseks. Tuvastuse teises faasis kasutatakse adapteeritud keelemudelit uute tuvastushüpoteeside saamiseks. Tulemused näitavad, et adapteerimisega saavutatakse oluline tuvastuskvaliteedi paranemine. Selgub, et morfeemidepõhisel adapteerimisel saavutatud 10-protsendiline vigade vähenemine on statistiliselt oluliselt suurem kui sõna- või lemmapõhisel adapteerimisel saadud muutused. Artiklis analüüsitakse ka saadud tulemuste võimalikke põhjuseid.

DOI: http://dx.doi.org/10.5128/ERYa4.01

Keywords

kõnetuvastus; keelemudeli adapteerimine; LSA; lemmatiseerimine; morfeemid

Full Text:

PDF

DOI: http://dx.doi.org/10.5128/ERYa4.01

Refbacks

There are currently no refbacks.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563

Username
Password
Remember me

Eesti Rakenduslingvistika Ühingu aastaraamat / Estonian Papers in Applied Linguistics

Statistilise keelemudeli adapteerimine eesti keele kõnetuvastuses

Abstract

Keywords

Full Text:

Refbacks