Quote extraction from Estonian media: Analysis and tools

Dage Särg, Karmen Kink, Karl-Oskar Masing

Abstract


This paper describes the identification, adaptation and creation of tools that are needed for creating a quote extractor for Estonian media texts that would be able to properly extract both direct and indirect quotes and attribute them to the correct person identified by full name and profession. This includes named entity recognition and resolution as well as grammar-based extraction of direct and indirect quotes. To get a further understanding of indirect speech in Estonian media, we also performed a corpus linguistic analysis of the quotes extracted with our tools from one week of Estonian news.

***

Tsitaatide eraldamine eestikeelsetest meediatekstidest: analüüs ja töövahendid

Artikkel annab ülevaate eesti keele tsitaadituvastaja loomise esimesest etapist. Tsitaadituvastaja eesmärk on eraldada nii otseses kui kaudses kõnes väljendatud tsitaate koos tsiteeritud isiku täisnime ning võimalusel ka ametiga. Artiklis selgitasime, milliseid komponente tsitaadituvastaja jaoks oleks vaja ning vastavalt sellele testisime ja kohandasime olemasolevaid ning lõime veel puuduvaid töövahendeid. Samuti identifitseerisime tsitaadituvastaja arenduseks vajalikud parandused ja lisatööriistad ning analüüsisime uudistes otsese ja kaudse kõne edastamiseks kasutatavaid saatelauseid.

Isikunimede leidmiseks kasutasime EstNLTK teegi standardset CRF-põhist nimeüksuste märgendajat. Lisasime sellele ühestaja, mis leiab tekstist tsiteeritud isiku täisnime, juhul kui saatelauses on kasutatud ainult ees- või perekonnanime. Sel moel suutsime ära lahendada 61,0% ühesõnalistest isikunimedest. 

Elukutsete leidmiseks lõime 5659 sõna suuruse eestikeelse ametite leksikoni ning märgendasime selle põhjal nimeüksuste tuvastaja treeningkorpuses ka elukutsed. Seejärel treenisime nimeüksuste tuvastaja ümber tuvastama ka elukutseid. Tulemusi hinnates leidsime, et kõige parem on kasutada leksikonipõhist lähenemist koos ümbertreenitud CRF-märgendajaga, mis andis elukutsete tuvastamise F1-skooriks 86,1%. 

Otsekõne eraldamiseks kasutasime regulaaravaldistepõhist lähenemist. Kuna otsekõne on jutumärkidega selgelt markeeritud, saime sel moel 95,0%-se F1-skoori. Otsekõne saatelausetest saime sisendit kaudse kõne eraldamiseks: lõime verbide, nimisõnade ning määruste leksikoni, mis viitavad, et lause edastab vahendatud mõtteid. Grammatikapõhise lähenemisega saime F1-skooriks 84,7%, seejuures oli täpsus 93,5%. Uurides tuvastamata jäänud kaudse kõne lauseid, leidsime veel mitut tüüpi konstruktsioone, mida saagise parandamiseks grammatikapõhises lähenemises käsitleda võiks. 

Lõpetuseks analüüsisime vastloodud töövahendite abil ühe nädala Eesti meediatekstidest eraldatud tsitaate ja nende saatelauseid, käsitledes nii leksikaalseid, morfoloogilisi, süntaktilisi kui ka semantilisi jooni.

Tulevikus on plaanis peale eraldiseisvate töövahendite parandamise luua ka vabalt kasutatav terviklahendus eestikeelsete tsitaatide ja tsiteeritute tuvastamiseks.


Keywords


quote extraction, indirect speech, named entity recognition, information extraction, corpus linguistics, computational linguistics, tsitaatide tuvastamine, vahendatud kõne, nimeüksuste tuvastamine, info eraldamine, korpuslingvistika, arvutilingvistika

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa17.14

Refbacks

  • There are currently no refbacks.


Copyright (c) 2021 Dage Särg, Karmen Kink, Karl-Oskar Masing

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563