1 / 14

Romanisierung : Chinesische Schriftzeichen -> Pinyin

Romanisierung : Chinesische Schriftzeichen -> Pinyin. Vortragende: Jue Wang, Wenchao Li. Überblick. Chinesische Schriftzeichen Pinyin Schwierigkeiten und L ösungen Test Programme. Chinesische Schriftzeichen. Anzahl:. Verwendungsumfang.

chen
Download Presentation

Romanisierung : Chinesische Schriftzeichen -> Pinyin

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li

  2. Überblick • Chinesische Schriftzeichen • Pinyin • Schwierigkeiten und Lösungen • Test Programme

  3. Chinesische Schriftzeichen • Anzahl:

  4. Verwendungsumfang • Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.

  5. Kodierung • Anzahl der Zeichen unter verschiednen Kodierungen • CNS11643: 76,067 • BIG-5: 13,053 • GBK: 20,912 • Unicode CJK: 20,902 • Unicode CJK + ExtA + ExtB : >70,000

  6. Pinyin • Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. • Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语拼音文字/漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). • Eine Lautumschrift für chinesische Zeichen • http://de.wikipedia.org/wiki/Pinyin • Aussprache: Anaute, Auslaute

  7. Töne Chinesisch - das klingt ja alles gleich • Nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden. • Bezeichnung der Töne: Tone

  8. Schwierigkeiten und Lösungen • Ambiguität: Mehrere Aussprache • 会: • 会和(Hui4-He2, zusammen treffen) 会计(Kuai4-Ji4, Bilanzbuchhalter) • Familienamen, Ortnamen, usw. • 华(Hua2) – 华罗庚(Hua4-Luo2geng1, ein Mathematiker) • 燕(Yan4) – 燕京(Yan1-Jing, alter Name von Beijing) • Wörter Matching, Namenerkennung • Keine Leerzeichen zwischen Wörter • N_Gramm Matching, Tokenisieren

  9. Lösungen: N_gram • N_gram Matching Method: Zeitaufwand für Länge Aufsatz

  10. Lösungen : Tokenisieren • The Maximum Matching Method • The Opposite Directional Maximum Matching Method • The Optimum Matching Method • 中国/经济/发展/很/快。 • Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.

  11. Tokenisieren:Personennamen • Familiennamen+Anrede • List der Familienamen • Zeichen nur als Familienamen verwendet • Extra 1 oder 2 Bedeutungen • Allgemeine Zeichen

  12. Program • Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊 • Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论/语言  ping2lun4/yu3yan2 评/论语/言  ping2/lun2yu3/yan2

  13. Program laufen

  14. Danke!

More Related