Internetikeele automaatne süntaktiline analüüs kitsenduste grammatikaga

Dage Särg

AbstractArtikkel kirjeldab eesti keele kitsenduste grammatika kohandamist internetikeelele. Selleks parsiti 19 809 sõne suurune jututubade korpus eesti kirjakeele jaoks väljatöötatud reeglistikuga. Korpuse märgenduse käsitsi kontrollimisel leitud vigade põhjal tehti reeglistikku muudatusi neljas etapis: osalausepiiride tuvastamine, ühendverbide tuvastamine, pindsüntaktiline analüüs ning sõltuvussüntaktiline analüüs. Töö käigus leiti, et internetikeele süntaksi olulisemateks erijoonteks on laialdane partiklite ja ütete kasutus, väiksem täiendite osakaal, lausete lühidus ja väljajätteliste lausete sage esinemine. Reeglistiku kohandamise tulemusel paranesid nii pind- kui sõltuvussüntaktilise analüüsi näitajad. Kõige enam vigu tekkis subjektide, predikatiivide ja adverbiaalide funktsioonide märgendamisel. Sõltuvussüntaktilisel analüüsil esines enim vigu adverbiaalide sõltuvusmärgendites.

Syntactic analysis of Estonian netspeak using Constraint Grammar

The paper provides an overview of an attempt to adapt the Estonian Constraint Grammar rule set for netspeak. The rule set has been developed by Kaili Müürisep and Tiina Puolakainen for shallow and dependency parsing of Estonian literary language, and it has previously been adapted for shallow parsing of spoken Estonian by Kaili Müürisep and Heli Uibo.

First, in order to adapt the rules, a chatroom corpus was parsed with the existing rule set. The corpus was manually revised and based on the errors that were found, changes were made to the rule set. The changes regarded detection of clause boundaries and particle verbs, as well as assignment of syntactic tags and dependency relations. Extensive use of discourse particles and direct addresses, short sentence length, and small percentage of attributes among the syntactic functions used in text appeared to be the most distinctive features of netspeak, as well as the large amount of elliptical sentences from which, in addition to other syntactic functions, a predicate can be left out.

As a result of adapting the rule set, the results of both shallow and dependency parsing improved. The most error-prone syntactic functions were subjects, predicatives, and adverbials. In dependency parsing, the largest number of errors was made in determining the governors of adverbials.


Keywords


arvutilingvistika, keeletöötlus, süntaks, sõltuvussüntaks, keele varieerumine, eesti keel

Full Text:

PDF

References


Bick, Eckhard 2009. A Dependency Constraint Grammar for Esperanto. – Constraint Grammar Workshop at NODALIDA 2009, Odense. NEALT Proceedings Series, Vol. 8, 8–12. http://visl.sdu.dk/~eckhard/pdf/cg-workshop2009_dep.pdf (28.3.2016).

EKG II = Erelt, Mati; Kasik, Reet; Metslang, Helle; Rajandi, Henno; Ross, Kristiina; Saari, Henn; Tael, Kaja; Vare, Silvi 1993. Eesti keele grammatika II. Süntaks. Tallinn: Eesti Teaduste Akadeemia Keele ja Kirjanduse Instituut.

EKK = Erelt, Mati; Erelt, Tiiu; Ross, Kristiina 2000. Eesti keele käsiraamat. Tallinn: Eesti Keele Sihtasutus.

Hennoste, Tiit 2000. Sissejuhatus suulisesse eesti keelde: lausung suulises kõnes I. – Akadeemia, 10, 2223–2254.

Hennoste, Tiit 2012. Enda algatatud eneseparandus eestikeelsetes MSN-i dialoogides. – Eesti Rakenduslingvistika Ühingu aastaraamat, 8, 37–54. http://dx.doi.org/10.5128/ERYa8.03

Hennoste, Tiit 2013. kuule ma eemale nüüd. – Sirp, nr 46. http://www.sirp.ee/s1-artiklid/c9-sotsiaalia/2013-12-05-17-05-50 (6.5.2015).

Karlsson, Fred 1990. Constraint Grammar as a Framework for Parsing Running Text. – Proceedings of Coling-90. Vol. 3, 168–173. http://www.aclweb.org/anthology /C90-3030.

Karlsson, Fred; Voutilainen, Atro; Heikkilä, Juha; Anttila, Arto 1995. Constraint Grammar: A Language Independent System for Parsing Unrestricted Text. Berlin–New York: Mouton de Gruyter. http://dx.doi.org/10.1515/9783110882629

Lindström, Liina; Müürisep, Kaili 2009. Parsing Corpus of Estonian Dialects. – Proceedings of the NODALIDA 2009 workshop Constraint Grammar and robust parsing. http://dspace.utlib.ee/dspace/bitstream/handle/10062/14288/ lindstrommuurisep2.pdf?sequence=1 (28.3.2016).

Muischnek, Kadri; Kaalep, Heiki-Jaan; Sirel, Raul 2011. Korpuslingvistiline lähenemine eesti internetikeele automaatsele morfoloogilisele analüüsile. – Eesti Rakenduslingvistika Ühingu aastaraamat, 7, 111–127. http://dx.doi.org/10.5128/ERYa7.07

Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina 2014. Dependency Parsing of Estonian: Statistical and Rule-based Approaches. – Andrius Utka, Gintarė Grigonytė, Jurgita Kapočiūtė-Dzikienė, Jurgita Vaičenonienė (Eds.), Human Language Technologies – The Baltic Perspective. Frontiers in Artificial Intelligence and Applications 268. IOS Press, 111–118. http://dx.doi.org/10.3233/978-1-61499-442-8-111

Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina 2014. Ühendverbid eesti keele pindsüntaktilises analüüsis. – Eesti Rakenduslingvistika Ühingu aastaraamat, 10, 227–240. http://dx.doi.org/10.5128/ERYa10.14

Müürisep, Kaili 2000. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae Universitatis Tartuensis 22. Tartu: Tartu Ülikooli kirjastus.

Müürisep, Kaili; Uibo, Heli 2005. Shallow Parsing of Spoken Estonian Using Constraint Grammar. Treebanking for Discourse and Speech. – Peter Juel Henrichsen, Peter Rossen Skadhauge (Eds.), Proceedings of NODALIDA 2005 Special Session on Treebanks for Spoken Language and Discourse. Copenhagen Studies in Language 32. Samfundslitteratur, 105–118.

Nivre, Joakim 2005. Dependency Grammar and Dependency Parsing. Växjö University.

Roosmaa, Tiit; Koit, Mare; Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Uibo, Heli 2001. Eesti keele formaalne grammatika. Tartu: Tartu Ülikooli kirjastus.

Särg, Dage 2012. Internetikeele automaatse morfoloogilise ühestamise kvaliteedi uuring. Bakalaureusetöö. Käsikiri Tartu Ülikooli üldkeeleteaduse osakonnas.

Särg, Dage 2015. Internetikeele süntaktiline analüüs kitsenduste grammatikaga. Magistritöö. Käsikiri Tartu Ülikooli üldkeeleteaduse osakonnas. http://dspace.ut.ee/bitstream/handle/10062/47666/Sarg_2015.pdf (28.3.2016).
DOI: http://dx.doi.org/10.5128/ERYa12.15

Refbacks

  • There are currently no refbacks.


Copyright (c) 2016 Dage Särg

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563