Comparative Analysis of Slovak Grapheme Frequencies in Slavic Languages

Peter Grzybek Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek

Slowakische Graphem-Häufigkeiten

Anfänge in den 50er Jahren: • Praktische Bedürfnisse • Stenographie • Tastaturbelegung auf Schreibmaschinen • Vergleich Graphematik – Phonologie • Milan (1957): 35 – 10.000 • Mistrík (1957): 41 – 100.000 • Bosák (1965): 46 – 10.000 • Krauszová/Jarušek (wiss.): 43 – 585.207 • Krauszová/Jarušek (journ.): 43 – 627.797

Slowakische Graphematik (Bosák 1965) • Bosák: 46 – 10.000 99.97% • Milan: 35 – 10.000 98.93 % • Mistrík: 41 – 100.000 90.68 % • Krauszová/Jarušek (wiss.): 43 – 585.207 91.09 % • Krauszová/Jarušek (journ.): 43 – 627.797 93.72 % • Unterschiedliche Inventar-Größen • Unvollständige (Roh-)Daten • Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen

Synergetische Grundlagen Frequenzen und Abhängigkeiten Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.

Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ? Frequennz R a n g 1 b i s R a n g n

Analyse von Graphem-Frequenzen Methodologische Entscheidungen • Daten-Homogenität • Graphematische Daten (keine Phoneme) • Kontrolle der Daten-Homogenität • Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text-Mischungen (Korpus) • Diskrete Häufigkeits-Modelle (keine stetigen) • (a) theoretische Entropie, Repeat Rate, etc. • (b) pi = 1 • Test relevanter Modelle • Goodness-of-Fit-Test • ²-Test  C = ² / N (C < 0.02 = * ; C < 0.01 = **)

Analyse von Graphem-Frequenzen: Russisch

Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x fr = c  fr = c / r Gesamt-Korpus: C = 0.12

Zipf-Mandelbrot-Verteilung Grundannahme:  fr = c / (r + b)a Gesamt-Korpus: C = 0.03

Zipf‘sche und Zipf-Mandelbrot‘sche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze)

Geometrische Verteilung und Good-Verteilung Gesamt-Korpus: C = 0.0211 Gesamt-Korpus: C = 0.13

Analyse Russischer Graphem-Frequenzen (Korpus) Negativ-hypergeometrische Verteilung n = Inventargröße, x = Klasse 2 Parameter: K,M Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C = 0.0043

Negativ hypergeometrische Verteilung Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem Gesamt-Korpus Konstanz des Goodness-of-Fit-Tests (C) Konstanz der Parameter (K, M) K  3.15 M  0.81

Analyse slowenischer Graphem-Frequenzen a b c č d e f g h i j k l m n o p r s š t u v z ž Negativ hypergeometrische Verteilung Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme (C= 0.0094)

Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung Konstanz des Goodness-of-Fit-Tests: (C) Konstanz der Parameter (K, M) K  2.89 M  0.81

Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)

Analysis von Graphem-Häufigkeiten in slawischen Alphabeten

Slowakische Graphem-Häufigkeiten • Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? • Wenn ja: • Wie verhalten sich die Parameter K und M ? • Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? • Lassen sich die Parameter K und M interpretieren ?

Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca. 150.000 Grapheme) 43 Grapheme 46 Grapheme C = 0.0102 C = 0.0139 K = 3.97 K = 4.16 M = 0.85 M = 0.83

Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten)

Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K = 4.06  0.06 K = 4.31  0.08 M = 0.85  0.01 M = 0.84  0.01

Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M • Slowenisch: 25 • Russisch:32 (ohne ё) • Russisch: 33 (mit ё) • Slowakisch: 43 (ohne Digraphen) • Slowakisch: 46 (mit Digraphen) • Überlappung von M • Keine Überlappung von K • Korrelation von K und n ?

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n: (r = 0.26, p = 0.01) K korreliert hoch signifikant mit dem Inventarumfang n: (r = 0.94, p < 0.001)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter Kund M von n M korreliert nicht signifikant mit dem Inventarumfang n: (r = 0.33, p = 0.22) K korreliert signifikant mit dem Inventarumfang n: (r = 0.99, p = 0.002)

Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit Mivon Ki (i=1,2,…,n) gesamt r =.51, p < .001 SPRACHSPEZIFIK !!!

Sprachspezifische Abhängigkeit des Parameters Mi von Ki (i = 1,2,…,n) Slowenisch: r =.88, p < .001 Russisch (32): r =.86, p < .001 Russisch (33) r =.85. p < .001 Slowakisch (46) r = .59, p = .001 Slowakisch (43): r =.82, p < .001

Sprachspezifische Abhängigkeit des Parameters Mi von Ki Mi = aiKi Slowenisch: M1 = 0.2823 K1 Russisch (32): M2 = 0.2434 K2 Russisch (33) M3 = 0.2529 K3 Slowakisch (46) M5 = 0.1953 K5 Slowakisch (43): M4 = 0.2123 K4

Abhängigkeit des Faktors ai von ni ai = c ni + d ai = c‘ nid‘ Slowenisch n1 = 25 M1 = 0.2823 K1 Russisch n2 = 32 M2 = 0.2434 K2 n3 = 33 M3 = 0.2529 K3 Slowakisch n4 = 43 M4 = 0.2123 K4 n5 = 46 M5 = 0.1953 K5 r =.99 ( p = 0.001)

Resümee und Schlussfolgerungen • Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung • Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein • Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen • Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter

Däkujem za pozornost !

Stichprobengröße und C

Post-Hoc-Mittelwert-Vergleich (Parameter K)

Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen)

Comparative Analysis of Slovak Grapheme Frequencies in Slavic Languages