1 / 34

Peter Grzybek

Peter Grzybek. Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen. Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek. Slowakische Graphem-Häufigkeiten.

Download Presentation

Peter Grzybek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Peter Grzybek Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek

  2. Slowakische Graphem-Häufigkeiten

  3. Anfänge in den 50er Jahren: • Praktische Bedürfnisse • Stenographie • Tastaturbelegung auf Schreibmaschinen • Vergleich Graphematik – Phonologie • Milan (1957): 35 – 10.000 • Mistrík (1957): 41 – 100.000 • Bosák (1965): 46 – 10.000 • Krauszová/Jarušek (wiss.): 43 – 585.207 • Krauszová/Jarušek (journ.): 43 – 627.797

  4. Slowakische Graphematik (Bosák 1965) • Bosák: 46 – 10.000 99.97% • Milan: 35 – 10.000 98.93 % • Mistrík: 41 – 100.000 90.68 % • Krauszová/Jarušek (wiss.): 43 – 585.207 91.09 % • Krauszová/Jarušek (journ.): 43 – 627.797 93.72 % • Unterschiedliche Inventar-Größen • Unvollständige (Roh-)Daten • Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen

  5. Synergetische Grundlagen Frequenzen und Abhängigkeiten Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.

  6. Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ? Frequennz R a n g 1 b i s R a n g n

  7. Analyse von Graphem-Frequenzen Methodologische Entscheidungen • Daten-Homogenität • Graphematische Daten (keine Phoneme) • Kontrolle der Daten-Homogenität • Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text-Mischungen (Korpus) • Diskrete Häufigkeits-Modelle (keine stetigen) • (a) theoretische Entropie, Repeat Rate, etc. • (b) pi = 1 • Test relevanter Modelle • Goodness-of-Fit-Test • ²-Test  C = ² / N (C < 0.02 = * ; C < 0.01 = **)

  8. Analyse von Graphem-Frequenzen: Russisch

  9. Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x fr = c  fr = c / r Gesamt-Korpus: C = 0.12

  10. Zipf-Mandelbrot-Verteilung Grundannahme:  fr = c / (r + b)a Gesamt-Korpus: C = 0.03

  11. Zipf‘sche und Zipf-Mandelbrot‘sche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze)

  12. Geometrische Verteilung und Good-Verteilung Gesamt-Korpus: C = 0.0211 Gesamt-Korpus: C = 0.13

  13. Analyse Russischer Graphem-Frequenzen (Korpus) Negativ-hypergeometrische Verteilung n = Inventargröße, x = Klasse 2 Parameter: K,M Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C = 0.0043

  14. Negativ hypergeometrische Verteilung Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem Gesamt-Korpus Konstanz des Goodness-of-Fit-Tests (C) Konstanz der Parameter (K, M) K  3.15 M  0.81

  15. Analyse slowenischer Graphem-Frequenzen a b c č d e f g h i j k l m n o p r s š t u v z ž Negativ hypergeometrische Verteilung Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme (C= 0.0094)

  16. Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung Konstanz des Goodness-of-Fit-Tests: (C) Konstanz der Parameter (K, M) K  2.89 M  0.81

  17. Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)

  18. Analysis von Graphem-Häufigkeiten in slawischen Alphabeten

  19. Slowakische Graphem-Häufigkeiten • Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? • Wenn ja: • Wie verhalten sich die Parameter K und M ? • Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? • Lassen sich die Parameter K und M interpretieren ?

  20. Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca. 150.000 Grapheme) 43 Grapheme 46 Grapheme C = 0.0102 C = 0.0139 K = 3.97 K = 4.16 M = 0.85 M = 0.83

  21. Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten)

  22. Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K = 4.06  0.06 K = 4.31  0.08 M = 0.85  0.01 M = 0.84  0.01

  23. Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M • Slowenisch: 25 • Russisch:32 (ohne ё) • Russisch: 33 (mit ё) • Slowakisch: 43 (ohne Digraphen) • Slowakisch: 46 (mit Digraphen) • Überlappung von M • Keine Überlappung von K • Korrelation von K und n ?

  24. Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n: (r = 0.26, p = 0.01) K korreliert hoch signifikant mit dem Inventarumfang n: (r = 0.94, p < 0.001)

  25. Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter Kund M von n M korreliert nicht signifikant mit dem Inventarumfang n: (r = 0.33, p = 0.22) K korreliert signifikant mit dem Inventarumfang n: (r = 0.99, p = 0.002)

  26. Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit Mivon Ki (i=1,2,…,n) gesamt r =.51, p < .001 SPRACHSPEZIFIK !!!

  27. Sprachspezifische Abhängigkeit des Parameters Mi von Ki (i = 1,2,…,n) Slowenisch: r =.88, p < .001 Russisch (32): r =.86, p < .001 Russisch (33) r =.85. p < .001 Slowakisch (46) r = .59, p = .001 Slowakisch (43): r =.82, p < .001

  28. Sprachspezifische Abhängigkeit des Parameters Mi von Ki Mi = aiKi Slowenisch: M1 = 0.2823 K1 Russisch (32): M2 = 0.2434 K2 Russisch (33) M3 = 0.2529 K3 Slowakisch (46) M5 = 0.1953 K5 Slowakisch (43): M4 = 0.2123 K4

  29. Abhängigkeit des Faktors ai von ni ai = c ni + d ai = c‘ nid‘ Slowenisch n1 = 25 M1 = 0.2823 K1 Russisch n2 = 32 M2 = 0.2434 K2 n3 = 33 M3 = 0.2529 K3 Slowakisch n4 = 43 M4 = 0.2123 K4 n5 = 46 M5 = 0.1953 K5 r =.99 ( p = 0.001)

  30. Resümee und Schlussfolgerungen • Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung • Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein • Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen • Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter

  31. Däkujem za pozornost !

  32. Stichprobengröße und C

  33. Post-Hoc-Mittelwert-Vergleich (Parameter K)

  34. Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen)

More Related