Teksti keelekasutusmustrid ja lingvistiline klasteranalüüs

Pille Eslon; Kais Allkivi-Metsoja

doi:10.5128/LV28.01

Teksti keelekasutusmustrid ja lingvistiline klasteranalüüs

Pille Eslon, Kais Allkivi-Metsoja

Abstract

Suurte korpuste automaatsel töötlemisel kasutatakse erinevat keeletarkvara ja statistilist analüüsi, mille valik ning kombineerimisvõimalused sõltuvad keelest, uurimisobjektist ja eesmärkidest. Artiklis tutvustame teksti keelekasutusmustrite otsimiseks mõeldud integreeritud tarkvararakendust Klastrileidja ja selle toimesüsteemi, anname ülevaate lingvistilise klasteranalüüsi abil saadud uurimistulemustest. Eesmärk on seletada, mida selle meetodi rakendamine loomuliku keele töötluse käigus võimaldab avastada eesti keele ja õppija keelekasutuse kohta ning kuidas neid teadmisi pedagoogilistel vajadustel rakendada.

***

Patterns of language use and linguistic cluster analysis

For automatic processing of large electronic corpora, different language analysis tools and statistical methods are applied, the choice and combination of which depend on the language, the object and goals of study. In this article, we introduce an integrated software tool Klastrileidja (Cluster Catcher), which has been developed for finding language use patterns, and we give an overview of the study results obtained, using linguistic cluster analysis. The purpose is to explain the possibilities that this method offers for natural language processing, exploring Estonian and learner language use as well as for pedagogical needs.

Keywords

loomuliku keele töötlus; keelekasutusmustrid; õppijakeel; eesti keel; natural language processing; language use patterns; learner language; Estonian

Full Text:

PDF

References

Allkivi, Kais 2016a. C1-tasemega eesti keele õppijate kirjalik keelekasutus võrdluses emakeelekõnelejatega: samalaadsusi ja nihkeid verbist paremal paiknevas kontekstis [‘Written language use of C1 learners of Estonian and native speakers in comparison: Similarities and differences in verb-initial fourgrams’]. Magistritöö. Tallinn: Tallinna Ülikool. http://www.etera.ee/zoom/20076/view?page=1&p=separate&view=0,0,2481,3508 (30.9.2017).

Allkivi, Kais 2016b. C1-tasemega eesti keele õppijate ja emakeelekõnelejate kirjaliku keelekasutuse võrdlus verbialguliste tetragrammide näitel [‘Written language use of C1 learners of Estonian and native speakers in comparison: Analysis of verb-initial fourgrams’]. – Lähivõrdlusi. Lähivertailuja 26, 54−83. https://doi.org/10.5128/LV26.02

Allkivi, Kais 2016c. Verbist paremal ja vasakul paiknev kontekst C1-tasemega eesti keele õppijate ja emakeelekõnelejate kirjutistes [‘Written language use of C1 learners of Estonian and native speakers in comparison: Analysis of verb-initial and verb-ending fourgrams’]. – XII muutuva keele päev. Ettekannete teesid. Tartu: Tartu Ülikool, 18−19. https://www.keel.ut.ee/sites/default/files/www_ut/mkp_2016_teesid.pdf (12.8.2018).

Andrejev 1965 = Андреев, Николай Дмитриевич 1965. Статистико-комбинаторное моделирование языков [‘Statistical-combinatorial modeling of languages’]. Сборник научных статей. Отв. ред. Николай Дмитриевич Андреев. Москва, Ленинград: Наука.

Andrejev 1967 = Андреев, Николай Дмитриевич 1967. Статистико-комбинаторный метод в теоретическом и прикладном языкознании [‘Statistical-combinatorial method in theoretical and applied linguistics’]. Ленинград: Наука.

Biber, Douglas, Susan Conrad, Randi Reppen 2006 [1998]. Corpus Linguistics. Investigating Language Structure and Use. New York: Cambridge University Press.

Chomsky 1972 = Хомский, Ноам 1972. Язык и мышление [‘Language and Mind’]. Перевод с английского Б. Ю. Городецкого. Москва: Изд-во Московского университета.

Eslon, Pille 2013. Kahe keelekasutusvariandi võrdlus: morfoloogilised klassid ja klastrid [‘The comparative study of language use: morphological classes and clusters’]. – Lähivõrdlusi. Lähivertailuja 23, 13–38. https://doi.org/10.5128/LV23.01

Eslon, Pille 2014a. Adverbi sisaldavate struktuuride tekstifunktsioonidest eesti ilukirjandus- ja õppijakeeles [‘On the textual functions of adverbial structures in literary Estonian and Estonian learner language’]. – Lähivõrdlusi. Lähivertailuja 24, 15–46. https://doi.org/10.5128/LV24.01

Eslon, Pille 2014b. Morfosüntaktilise ja leksikaalse varieerumise piiridest: ilukirjandus- ja õppijakeele kasutusmustrite võrdlus [‘Constraints on morphosyntactic and lexical variability’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 10, 55–71. https://doi.org/10.5128/ERYa10.04

Eslon, Pille 2017a. Kasutuspõhise keelekäsitluse pedagoogiline perspektiiv [‘Usage-based language description: Linguistic cluster analysis ant it’s perspectives for pedagigical purposes’]. – Mäetagused 69, 217–242. https://doi.org/10.7592/MT2017.69.eslon

Eslon, Pille 2017b. Keelekasutusmustrid verbist paremal: morfosüntaktiline ja leksikaalsemantiline varieerumine [‘Patterns of language use found on the right periphery of the verb: Morphosyntactic and lexico-semantic variability’]. – Lähivõrdlusi. Lähivertailuja 27, 17–64. http://dx.doi.org/10.5128/LV27.01

Eslon, Pille, Heleriin Paeoja 2015. Samatähenduslike sünteetiliste ja analüütiliste verbide kasutamine [‘Use of the synonymous synthetic and analytical verbs’]. – Lähivõrdlusi. Lähivertailuja 25, 63–104. https://doi.org/10.5128/LV25.04

Everitt, Brian S. 1997. Cluster analysis. – John P. Keeves (Ed.), Educational Research, Methodology, and Measurement: An International Handbook. Australia: Flinders University of South Australia, 466–472.

EVKK = Eesti vahekeele korpus. http://evkk.tlu.ee (12.3.2018).

Gore, Paul A. Jr. 2000. Cluster analysis. – Howard E. A. Tinsley, Steven D. Brown (Eds.), Handbook of Applied Multivariate Statistics and Mathematical Modeling. New York: Academic Press, 297–321.

Gries, Stefan Th., Anatol Stefanovitsch (Eds.) 2006. Corpora in Cognitive Linguistics. Corpus-Based Approaches to Syntax and Lexis. Berlin, New York: Mouton de Gruyter.

Hallik, Virgo 2015. Eesti vahekeele korpuse klasteranalüüsi vahendite kasutamine teksti keeletaseme prognoosimisel [‘Using Estonian interlanguage corpus cluster analysis tools to predict language level of text’]. Bakalaureusetöö. Tallinna Ülikool, digitehnoloogiate instituut.

Holm 1965 = Хольм, Хелье Х. 1965. Выделение парадигмы первого морфологического типа на различных подъязыках при статистико-комбинаторном моделировании эстонской морфологии [‘Identification of the paradigm of the first morphological type in various sublanguages for statistical-combinatorial modeling of Estonian morphology’]. Ученые записки Тартуского государственного университета 172. Тарту.

Ivaska, Ilmari 2015. Edistyneen oppijansuomen konstruktiopiirteitä korpusvetoisesti: avainrakenneanalyysi [‘Corpus‐driven approach towards constructional features of advanced learner Finnish: Key structure analysis’]. Väitöskirja. Turun yliopiston julkaisuja C-409. Turku: Turun yliopisto.

Kitsnik, Mare 2018. Iga asi omal ajal: eesti keele B1- ja B2-taseme verbikonstruktsioonid keeleoskuse arengu näitajana [‘All in good time: Estonian B1- and B2-level verbal constructions as indicators of the development of language proficiency’]. Tallinna Ülikool. Humanitaarteaduste dissertatsioonid 43. Tallinn: Tallinna Ülikool. https://www.etera.ee/zoom/41182/view?page=1&p=separate&view=0,0,2067,2834 (11.8.2018)

Klimov 1961 = Климов, Георгий Андреевич 1961. О лексико-статистической теории М. Сведоша [‘About the lexico-statistic theory by M. Swadesh’]. – Вопросы теории языка в современной зарубежной лингвистике. Москва: Изд-во Академии Наук СССР, 239–253.

Kossinski, Janek 2018. Masinõppel rajaneva tarkvararakenduse loomine keeleoskustaseme ennustamiseks [‘Development of a language skill prediction software using machine learning’]. Bakalaureusetöö. Tallinna Ülikooli digitehnoloogiate instituut.

Lagus, Krista, Anu Airola 2005. Semantic clustering of verbs – analysis of morphosyntactic contexts using the SOM algorithm. – Acquisition and Representation of Word Meaning: Theoretical and Computational Perspectives. Linguistica Computazionale XXII-XXIII. Pisa-Roma: IEPI, 263–287. https://pdfs.semanticscholar.org/3947/53bcca76302f23ad8ffabe4e91272a2d03a6.pdf (18.1.2018).

Law, Nancy 2007. Comparing pedagogical innovations. – Mark Bray, Bob Adamson, Mark Mason (Eds.), Comparative Education Research. Approaches and Methods. Hong Kong: The University of Hong Kong, 333–364.

Matsak, Erika, Pille Eslon, Jaagup Kippar 2010. Eesti keele sõnajärje vealeidja prototüübi arendamine [‘The development of the prototype for an automatic word order error detector for the Estonian language’]. – Pille Eslon, Katre Õim (Toim.),Korpusuuringute metodoloogia ja märgendamise probleemid. Tallinna Ülikooli eesti keele ja kultuuri instituudi toimetised 12. Tallinn: Tallinna Ülikooli Kirjastus, 59–100.

Mel'čuk, Igor 1995 [1979]. Semantics of two emotion verbs in Russian: bojat’sja ’[to] be afraid’ and nadejat’sja ’[to] hope’.– Игорь Мельчук, Русский язык в модели «смысл <=> текст». Москва, Вена: Языки русской культуры, 81–133.

Mel'čuk, Igor, Aleksandr Zholkovsky 1984. Explanatory combinatorial dictionary of modern Russian. Wiener slawistischer Almanach 14 (Sonderband). Peter Lang.

Metslang, Helena, Erika Matsak 2010. Kesksete lausekomponentide järjestus õppijakeeles: arvutianalüüsi katse [‘Automatic word order analysis of Estonian as a second language: The nuclear sentence’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 6, 175−193.

Mooi, Erik, Marko Sarstedt 2011. A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer. Chapter 9: Cluster Analysis. Berlin, Heidelberg: Springer, 237–284. https://doi.org/10.1007/978-3-642-12541-6

Muischnek, Kadri, Mark Fišel, Heiki-Jaan Kaalep, Mare Koit, Kaili Müürisep, Heili Orav, Kadri Vare, Haldur Õim 2012. Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis [‘Development of computational linguistics and language technology at the University of Tartu’]. – Emakeele Seltsi aastaraamat 57 (2011), 66–102. https://doi.org/10.3176/esa57.05

Muischnek, Kadri, Kaili Müürisepp, Tiina Puolakainen 2016. Estonian Dependency Treebank: from Constraint Grammar tagset to Universal Dependencies. – Proceedings of the Tenth International Conference on Language Resources and Evaluation: Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia, May 23–28, 2016. ELRA, 1558−1565. http://www.lrec-conf.org/proceedings/lrec2016/pdf/411_Paper.pdf (12.4.2018).

Ots, Sander 2011. Tarkvara statistiliste kollokatsioonide eraldamiseks ning selle rakendus morfosüntaktilises analüüsis [‘Software for extracting statistical collocations and its application in morphosyntactic analysis’]. Seminaritöö. Tallinna Ülikooli informaatika instituut.

Ots, Sander 2012. Statistikapõhise tarkvara loomine morfoloogiliste kollokatsioonide eraldamiseks eesti keele tekstidest [‘Software for morphosyntactic cluster extraction from Estonian texts’]. Bakalaureustöö. Tallinna Ülikooli informaatika instituut.

Paeoja, Heleriin 2015. Analüütiliste/sünteetiliste verbipaaride kasutusmustrid 1990ndate aastate eesti ilukirjanduskeeles [‘Usage patterns of analytic and synthetic verbal pairs based on 1990s Estonian literature texts’]. Magistritöö. Tallinna Ülikooli eesti keele ja kultuuri instituut.

Remm, Kalle, Jaanus Remm, Ants Kaasik 2012. Ruumiliste loodusandmete statistiline analüüs [‘Statistical analysis of spatial data’]. Õpik-käsiraamat. Tartu: Tartu Ülikooli ökoloogia ja maateaduste instituut.

Sirts, Kairit 2015. Non-parametric Bayesian models for computational morphology. Theses of Tallinn University of Technology C100. Tallinna Tehnikaülikool.

Sirts, Kairit, Jacob Eisenstein, Micha Elsner, Sharon Goldwater 2014. POS induction with distributional and morphological information using a distance-dependent Chinese restaurant process. – Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (2), 265–271.

Šajkevitš 1976 = Шайкевич, Анатолий Янович 1976. Дистрибутивно-статистический анализ в семантике [‘Distributive Statistical Analysis of Semantics’]. – Принципы и методы семантических исследований. Москва: Наука, 353–378.

Šajkevitš jt 2013 = Шайкевич, Анатолий Я., Владислав М. Андрющенко, Наталья А. Ребецкая 2013. Дистрибутивно-статистический анализ языка русской прозы 1850–1870-х гг. [‘Distributive statistical analysis of the language of Russian prose of the 1850s-1870s’]. Том 1. Москва: Языки славянской культуры.

Ševtšenko, Marina 2014. Eesti keele kui teise keele 8. klassi õpiku temaatiline sõnavara ja grammatika [‘Vocabulary and grammar of the Estonian as a second language textbook (8th class)’]. Magistritöö. Tallinna Ülikooli eesti keele ja kultuuri instituut.

Tamm, Marek 2011. Humanitaarteaduste metodoloogia: minevik ja tulevik [‘Methodology of humanities: past and future’]. – Humanitaarteaduste metodoloogia. Uusi väljavaateid. Tallinn: TLÜ Kirjastus, 9–29.

Trainis, Jekaterina 2015. Linguistic cluster analysis: A method for describing language units and indicating regularities in language. – Wojciech Malec, Marietta Rusinek (Eds.), Within Language, beyond Theories. Vol. III. Discourse Analysis, Pragmatics and Corpus-based Studies. Cambridge Scholars Publishing, 229–243.

Trainis, Jekaterina 2017. Diakroonilised nihked eesti ilukirjanduskeele kasutusmustrites 1890–1990 [‘Diachronic shifts in usage patterns of Estonian belletristic language in 1890s–1990s’]. – Mäetagused 69, 181–216. https://doi.org/10.7592/MT2017.69.trainis

Trainis, Jekaterina, Kais Allkivi 2014. Ilukirjanduskeelest uue pilguga [‘On belletristic language from a new perspective’]. – Eesti Rakenduslingvistika Ühingu aastaraamat 10, 283–306. https://doi.org/10.5128/ERYa10.18

Tšernõšuk, Anna 2016. Eesti keele kui teise keele 9. klassi õpiku temaatiline sõnavara [‘Vocabulary of the Estonian as a second language textbook (9th class)’]. Bakalaureusetöö. Tallinna Ülikooli humanitaarteaduste instituut.

Voolaid, Katrin 2018. Vene ja soome lähtekeelega õppijate eesti keele kasutusmustrid (B1-tase) [‘Estonian language usage patterns among Russian and Finnish students (B1 language proficiency level)’]. Magistritöö. Tallinna Ülikooli humanitaarteaduste instituut.

Wiersma, Wybo, John Nerbonne, Timo Lauttamus 2011. Automatically extracting typical syntactic differences from corpora. – Literary and Linguistic Computing 26 (1), 107–124. https://doi.org/10.1093/llc/fqq017

DOI: http://dx.doi.org/10.5128/LV28.01

Refbacks

There are currently no refbacks.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-9290 (print)
ISSN 2228-3854 (online)
DOI https://doi.org/10.5128/LV.1736-9290

Username
Password
Remember me