1 / 19

Die formalen Sprachen bei ETAP

Die formalen Sprachen bei ETAP. Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind Referentin: Nataliya Chapysheva Datum: 05. Juni 2008. Agenda.

grady
Download Presentation

Die formalen Sprachen bei ETAP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind Referentin: Nataliya Chapysheva Datum: 05. Juni 2008

  2. Agenda • Was ist eine formale Sprache (nach Ю.Д. Апресян)? • 3 Typen von linguistischen Informationen • Regeln in ETAP-3 • Elementare Regeln • Verallgemeinerte Regeln • Signatur der formalen Sprachen • Terme • Prädikate (elementare Prädikate, zusammengesetzte Prädikate) • Bedingungen in der CHECK-Zone • Gruppen von Bedingungen • Anweisungen in der DO-Zone • Beispiel

  3. Formale Sprachen • Eine formale Sprache soll sowohl den Bedürfnissen der Linguisten als auch der Programmierer entsprechen. • Linguisten brauchen eine formale Sprache, die eine große Auswahl an aussagekräftige Mitteln hat, die ziemlich frei und gleichzeitig nah zu einer natürlichen Sprache ist.  • Die Hauptanforderung der Programmierer an die formale Sprache – maximal einfache Arbeit des Algorithmus mit den Aussagen dieser Sprache. • Diese Anforderungen widersprechen sich und der Erfolg eines Übersetzungssystems hängt davon ab, ob man einen tragbaren Kompromiss zwischen diesen Widersprüchen findet.

  4. Die formalen Sprachen zur Notierung von linguistischen Informationen in ETAP • Man verwendet formale Sprachen zur Notierung von 3 Basistypen der linguistischen Informationen: • 1. Einträge im morphologischen Wörterbuch • 2. Einträge im kombinatorischen Wörterbuch • 3. Syntaktische Regeln und Transformationsregeln

  5. Regeln in ETAP 3 • Es gibt 2 Typen von Regeln im System: • Elementare • Verallgemeinerte

  6. Elementare Regeln • Die elementare Regel besteht aus zwei Zonen: • CHECK (enthält die Liste von Bedingungen) • DO (enthält die Liste von Aktionen)

  7. Verallgemeinerte Regeln Die verallgemeinerte Regel besteht aus: • einer Zone von allgemeinen Bedingungen • und einigen elementaren Unter-Regeln Die verallgemeinerte Regel funktioniert folgendermaßen: • Zuerst werden die allgemeinen Bedingungen der Regeln überprüft • Die elementaren Unter-Regeln werden erst dann geprüft, wenn alle allgemeine Bedingungen erfüllt sind

  8. Signatur der formalen Sprachen • Bedingungen in Check-Zone sind prädikatenlogische Ausdrücke • Aktionen in Do-Zone werden als Anweisungen notiert • Terme: • Prädikative Konstante • Prädikative Variable: • Kontext-Variable • Term-Variable(ALPHA, BETA, R, R1, R2, ..., - für die nicht wiederholbare Variablen; RALPHA, RBETA, ..., RR, RR1, RR2, ... – für die wiederholbaren Variablen)

  9. Signatur der formalen Sprachen • Prädikate: • Elementare Prädikate • Prädikate zur Identifizierung • Prädikate der linearen Anordnung • Dominanz-Prädikate • Kongruenz-Prädikate • Prädikate des RM • Zusammengesetzte Prädikate: • Elementare Prädikate der linearen Anordnung • Elementare Dominanz-Prädikate • Elementare Prädikate zur Identifizierung

  10. Elementare Prädikate Notierung: • Kontext-Variablen: Z, Z1, Z2, ... • Prädikative Konstante / Term-Variablen: t1, t2, ..., l1, l2, ..., n, r • Prädikate zur Identifizierung: • z.B. =(Z, t1, ..., tk) oder EQU(Z, t1, ..., tk) , mit k≥1. Wortform Z besitzt alle Charakteristika t1, ..., tk. • Prädikate der linearen Anordnung: • z.B. ORD(Z, Z1, Z2,...). Wort Z steht in der Phrase weiter links als Z1, Z1 steht weiter links als Z2 usw. • Dominanz-Prädikate: • z.B. DOM(Z, Z1, r). Knoten Z ist unmittelbarer syntaktischer Herr des Knotens Z1 über die Relation r. • Kongruenz-Prädikate: • z.B. COCAS(Z1, Z2). Beide Wortformen Z1 und Z2 verfügen über die Charakteristik Kasus, und diese Charakteristika stimmen überein. • Prädikate des RM: • VAL(n, Z, t1, ..., tk), mit k≥1. In der n-ten Spalte des RM von Lexem Z gibt es eine Eintragung, die alle Charakteristika t1, ..., tk enthält.

  11. Zusammengesetzte Prädikate • z.B. R-DEP-EQUN (X, Z, n, r,t1, t2, ...,tk) • Rechts von X, in einer Entfernung von nicht mehr als n Wörter gibt es ein Wort Z und Z ist unmittelbarer syntaktischer Herr von Xüber die Relation R und enthält eine der Charakteristika t1, t2, ..., tk. • z.B. ORD-DOM(Z, Z1, r) • Wort Z steht in der Phrase weiter links als Z1 und Z ist unmittelbarer syntaktischer Herr von Z1über die Relation r.

  12. Notierung der Bedingungen in der CHECK-Zone • Nötige Bedingungen • Unmögliche Bedingungen

  13. Gruppen von Bedingungen • Alle Bedingungen unterteilt man in Gruppen. Jede Bedingung hat 2 Nummern: • Die Nummer der Gruppe, zu der sie gehört • Und ihreOrdinalnummer in dieser Gruppe • Die Gruppen mit den Nummern 1, 3 enthalten nötige Bedingungen und die Gruppen mit den Nummern 2, 4 – unmögliche Bedingungen. • Die Unterteilung in 4 Gruppen (und nicht in 2) gibt dem algorithmischen Prozess die zusätzliche Information.

  14. Gruppen von Bedingungen • Bedingungen der 1. Gruppe: • Gruppe der nötigen linearen Bedingungen • Bedingungen der 2. Gruppe: • Gruppe der unmöglichen linearen Bedingungen • Bedingungen der 3. Gruppe: • Gruppe der nötigen Baum-Bedingungen • Bedingungen der 4. Gruppe: • Gruppe der unmöglichen Baum-Bedingungen

  15. Notierung der Anweisungen in der DO-Zone • Es gibt 45 Anweisung, die in 7 Gruppen unterteilt sind: • Anweisungen zur Bearbeitung der Charakteristika von Wörtern • Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase • Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase • Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase • Anweisungen zur Bearbeitung von Satzzeichen • Anweisungen zur Bearbeitung von Co-Referenz • Hilfsanweisung

  16. Notierung der Anweisungen in der DO-Zone • Anweisungen zur Bearbeitung der Charakteristika von Wörtern • z.B. DOBUZHAR:Z(t1,...,tk) - dem Knoten Z werden die Charakteristika t1, ..., tk hinzugefügt. • Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase • z.B. SVUZOT:(Z,Z1,r) - Z (als synt. Herr) wird mit Z1 (als Abhängiger) durch die Relation r verbunden. • Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase • z.B. IZNOM:Z(Z1) - Nummern der Wörter Z und Z1 werden verändert, so dass sie ihre Plätze in der Phrase tauschen.

  17. Notierung der Anweisungen in der DO-Zone • Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase • z.B. DOBUZ:Z(Lang,l) - der Phrase wird der neue Knoten Z, der aus dem Lexem l der Sprache Lang besteht, hinzugefügt. • Anweisungen zur Bearbeitung von Satzzeichen: • z.B. STERPUN:(t1,...,tk) - die Satzzeichen t1, ..., tk werden aus der Phrase getilgt. • Anweisungen zur Bearbeitung von Co-Referenz: • z.B. IZREF.(Z1,Z2)-(U1,U2) – Ersetzten die Beziehung zwischen Z1 und Z2 durch die Beziehung U1 und U2. • Hilfsanweisung: • NIHIL: - nichts tun.

  18. Beispiel • REG:PRESYNT.D0        ПОСЛЕ ТОГО, КАКN:01CHECK1.1 R-LEXR(X,Z,0,ТО3)&=(Z,РОД,ЕД)&R-LEXR(Z,W,0,КАК1)DO1 SVUZOTOK:(X,Z,ПРЕДЛ)2 SVUZOTOK:(Z,W,ЭКСПЛЕТ)

  19. Quelle • Ю.Д. Апресян et al.: Лингвистический процессор для сложных информационных систем. Москва 1992, Kapitel 2 • http://de.wikipedia.org/wiki/Formale_Sprache • http://de.wikipedia.org/wiki/Formale_Grammatik

More Related