Statistilised meetodid ühendverbide tuvastamisel tekstikorpusest

Eleri Aedmaa

Abstract


DOI: http://dx.doi.org/10.5128/ERYa11.03

Artiklis võrdlen sõnadevahelise seose tugevuse mõõtmise statistilisi meetodeid, mida kasutatakse arvutilingvistikas püsiühendite tuvastamiseks. Töö põhieesmärk on rakendada viit sümmeetrilist statistikut – t-skoori, vastastikuse informatsiooni väärtust, hii-ruut-statistikut, log-tõepära funktsiooni ja minimaalset tundlikkust – erineva suurusega korpuste peal ja välja selgitada, milline meetod töötab eesti keele ühendverbide automaatsel tuvastamisel kõige paremini. Teine suurem eesmärk on katsetulemuste põhjal uurida, milline on korpuse suuruse mõju statistikute tööle. Lisaks palju testitud nimetatud sümmeetrilistele statistikutele rakendan psühholoogiliselt paremini põhjendatud asümmeetrilisi statistikuid  ning toon välja nende eelised sümmeetriliste statistikute ees.


Keywords


arvutilingvistika; korpuslingvistika; püsiühendid; statistika; ühendverbid; eesti keel

Full Text:

PDF

References


Aedmaa, Eleri 2014a. Sõnadevahelise seose tugevuse mõõtmise statistilised meetodid ühendverbide tuvastamisel. [Statistical Methods for Particle Verb Extraction.] Magistritöö. Käsikiri Tartu ülikooli üldkeeleteaduse osakonnas. http://hdl.handle.net/10062/44260

Aedmaa, Eleri 2014b. Statistical methods for Estonian particle verb extraction from text corpus. – Proceedings of the ESSLLI 2014 Workshop: Computational, Cognitive, and Linguistic Approaches to the Analysis of Complex Words and Collocations, 17–22.

Bell, Alan; Brenier, Jason M; Gregory, Michelle; Girand, Cynthia; Jurafsky, Dan 2009. Predictability effects on durations of content and function words in conversational English. – Journal of Memory and Language, 60 (1), 92–111. http://dx.doi.org/10.1016/j.jml.2008.06.003

Church, Kenneth Ward; Hanks, Patrick 1990. Word association norms, mutual information, and lexicography. – Computational Linguistics, 16, 22–29.

Dunning, Ted 1993. Accurate methods for the statistics of surprise and coincidence. – Computational Linguistics, 19, 61–74.

Eesti keele seletav sõnaraamat. http://www.eki.ee/dict/ekss/ (16.12.2014).

Ellis, Nick C 2006. Language acquisition as rational contingency learning. – Applied Linguistics, 27 (1), 1–24. http://dx.doi.org/10.1093/applin/ami038

Ellis, Nick C; Ferreira-Junior, Fernando 2009. Constructions and their acquisition: Islands and the distinctiveness of their occupancy. – Annual Review of Cognitive Linguistics, 7 (1), 188–221. http://dx.doi.org/10.1075/arcl.7.08ell

Evert, Stefan 2004. The Statistics of Word Cooccurrences. Dissertation. Stuttgart: Stuttgart University.

Evert, Stefan 2008. Corpora and collocations. – Anke Lüdeling, Merja Kytö (Eds.). Corpus Linguistics. An International Handbook 2. De Gruyter Mouton, 223–233. http://dx.doi.org/10.1515/9783110213881.2.1212

Gries, Stefan Th. 2013. 50-something years of work on collocations: What is or should be next. – International Journal of Corpus Linguistics, 18 (1), 137–166. http://dx.doi.org/10.1075/ijcl.18.1.09gri

Kaalep, Heiki-Jaan 1998. Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. [An Estonian morphological analyser and using a corpus on its development.] – Keel ja Kirjandus, 1, 22–29.

Kaalep, Heiki-Jaan; Muischnek, Kadri 2002. Püsiühendite leidmine teksti abil. [Extraction of multiword expressions using text corpus.] – Renate Pajusalu, Tiit Hennoste (Toim.). Tähendusepüüdja: pühendusteos professor Haldur Õimu 60. sünnipäevaks 22. jaanuaril 2002. Catcher of the Meaning: festschrift for Professor Haldur Õim on the occasion of his 60th birthday. TÜ üldkeeleteaduse õppetooli toimetised 3. Tartu: Tartu Ülikool, 172–184.

Kaalep, Heiki-Jaan; Muischnek, Kadri 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja kuidas. [Estonian multiword expressions in computational linguistics.] – Eesti Rakenduslingvistika Ühingu aastaraamat, 5, 157–172. http://dx.doi.org/10.5128/ERYa5.10

Kaalep, Heiki-Jaan; Muischnek, Kadri 2012. Osalausete tuvastamine eestikeelses tekstis kui iseseisev ülesanne. [Clause splitting as a separate task (in the analysis of Estonian texts).] – Eesti Rakenduslingvistika Ühingu aastaraamat, 8, 55–68. http://dx.doi.org/10.5128/ERYa8.04

Kaalep, Heiki-Jaan; Vaino, Tarmo 1998. Kas vale meetodiga õiged tulemused? Statistikale tuginev eesti keele morfoloogiline ühestamine. [Getting correct results with an incorrect method? Morphological disambiguation of Estonian using statistics.] – Keel ja Kirjandus 1, 30–38.

Kallas, Jelena 2013. Eesti keele sisusõnade süntagmaatilised suhted korpus- ja õppeleksikograafias. [Syntagmatic Relationships of Estonian Content Words in Corpus and Pedagogical Lexicography.] Tallinna Ülikooli humanitaarteaduste dissertatsioonid 32. Tallinn: Tallinna Ülikool. http://e-ait.tlulib.ee/id/eprint/303

Krenn, Brigitte; Evert, Stefan 2001. Can we do better than frequency? A case study on extracting PP-verb collocations. – Proceedings of the ACL Workshop on Collocations, 39–46.

Manning, Christopher D; Schütze, Hinrich 1999. Foundations of Statistical Natural Language Processing. Cambridge (Mass.)–London: MIT press.

Michelbacher, Lukas; Evert, Stefan; Schütze, Hinrich 2007. Asymmetric association measures. – Proceedings of the Recent Advances in Natural Language Processing (RANLP 2007).

Michelbacher, Lukas; Evert, Stefan; Schütze, Hinrich 2011. Asymmetry in corpus-derived and human word associations. – Corpus Linguistics and Linguistic Theory, 7 (2), 245–276. http://dx.doi.org/10.1515/cllt.2011.012

Pecina, Pavel; Sclesinger, Pavel 2006. Combining association measures for collocation extraction. – Proceedings of the COLING/ACL on Main conference poster sessions, 651–658.

Pedersen, Ted 1998. Dependent bigram identification. – AAAI/IAAI, 1197.

Pedersen, Ted; Bruce, Rebecca 1996. What to infer from a description. Technical Report 96-CSE-04. Southern Methodist University. Dallas, TX.

Sinclair, John 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Uiboaed, Kristel 2010. Statistilised meetodid murdekorpuse ühendverbide tuvastamisel. – Eesti Rakenduslingvistika Ühingu aastaraamat, 6, 307–326. http://dx.doi.org/10.5128/ERYa6.19

Wermter, Joachim; Hahn, Udo 2006. You can’t beat frequency (unless you use linguistic knowledge): A qualitative evaluation of association measures for collocation and term extraction. – Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, 785–792.

Wiechmann, Daniel 2008. On the computation of collostruction strength: Testing measures of association as expressions of lexical bias. – Corpus Linguistics and Linguistic Theory, 4 (2), 253–290. http://dx.doi.org/10.1515/CLLT.2008.011




DOI: http://dx.doi.org/10.5128/ERYa11.03

Refbacks

  • There are currently no refbacks.


Copyright (c) 2015 Eleri Aedmaa

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563