170 likes | 246 Views
Sprachstatistik. Grundlegende Definitionen Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1 ,l 2 , ..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b, ..., z} k E = 26 Zeichenkette Seien l 1 ,l 2 , ..., l n Buchstaben aus A.
E N D
Sprachstatistik • Grundlegende Definitionen • AlphabetSei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l1,l2, ..., lk}. Wir nennen A ein Alphabet von NL der Größe k.Bsp. AE = {a, b, ..., z} kE = 26 • ZeichenketteSeien l1,l2, ..., ln Buchstaben aus A. Das Tupel t mit t={ l1,l2, ..., ln} wird Zeichenkette genannt und n ist die Länge von t.
Grundlegende Definitionen • Menge von ZeichenkettenSei An das kartesische Produkt des Alphabets A . An wird Menge von Zeichenketten der Länge n genannt.Bsp. A3 = { (a,a,a), (a,a,b), ... (a,a,z), (b,a,a), (b,a,b), ... (b,a,z), . . . (z,z,z)} • Lexikon einer SpracheSei NL eine natürliche Sprache und L eine Teilmenge von A+ (A+ = Un>o An ). Wir nennen L A+ ein Lexikon von NL.
Grundlegende Definitionen • Wortform, Menge von Wortformen der Länge nJedes Element W des Lexikons L wird Wortform genannt. Wn ist die Schnittmenge von An mit L und wird Menge von Wortformen der Länge n genannt. • Wortkombinationen der Länge rSei L ein Tupel von Wortformen, L=(W1, W2, ... Wr) mit Wi L. Wir nennen L eine Wortkombination der Länge r. • Menge von WortkombinationenSei Lr das kartesische Produkt von L. L+ wird Menge von Wortkombinationen der Länge r genannt. (L+ = Un>o Lr)
Grundlegende Definitionen • Menge von SätzenSYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S L+, die SYN folgen, wird Menge von Sätzen genannt.
Zipfsche Gesetze • Anzahl der Wörter • Rang x Häufigkeit = konstant • Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit. Wort Häufigkeit Rang f * r he 877 10 8770 but 410 20 8200 be 294 30 8820 friends 10 800 8000 family 8 1000 8000
Zipfsche Gesetze • Rangliste deutscher Wörter (Deutscher Wortschatz 1 - 10) 1: der 6: von 2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich
Zipfsche Gesetze • Rangliste deutscher Wörter (Deutscher Wortschatz 1 - 100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte
Zipfsche Gesetze • Rangliste deutscher Wörter (Fachwortschatz SAP 1 - 100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim
Zipfsche Gesetze • Anwendung: Abschätzung niederfrequenter Terme rn sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, In die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang.
Zipfsche Gesetze • Anwendung: Abschätzung niederfrequenter Terme
Zipfsche Gesetze • Anwendung: Wachstum des Lexikons mit typischen Werten für k=10 und = 0,5
Zipfsche Gesetze • Anwendung: Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne.
Zipfsche Gesetze • Rangliste deutscher Wörter (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1 - 30;Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), ... ...
Zipfsche Gesetze • Anzahl der Bedeutungen Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit.
Zipfsche Gesetze • Signifikante Terme clustern Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf.
Weitere statistische Auffälligkeiten • Die flektierten Formen eines Wortes sind nicht gleich häufig magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143) möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219)
Weitere statistische Auffälligkeiten • Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf Signifikante linke Nachbarn von As: Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3) Signifikante linke Nachbarn von Asse: deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3)