Relative entropie
This presentation is the property of its rightful owner.
Sponsored Links
1 / 42

Relative Entropie PowerPoint PPT Presentation


  • 54 Views
  • Uploaded on
  • Presentation posted in: General

Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch ….

Download Presentation

Relative Entropie

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Relative entropie

Relative Entropie

„Spracherkennung mit zip-Programmen“

aus der Sicht des Physikstudenten Lennart Hilbert


Orientierung an language trees and zipping benedetto caglioti loreto 2008

Orientierung an„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008


Beispiel spracherkennung

Vergleichsdatenbank mit Referenztexten

Französisch

Spanisch

Englisch

Tschechisch

Textstück unbe-kannter Sprache

Zu welchem Text besteht größte Ähnlichkeit?

Beispiel Spracherkennung


Tabelle mit hnlichkeits werten

Tabelle mit Ähnlichkeits-Werten


Messgr e relative entropie

Messgröße:Relative Entropie

  • Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen

  • Grundlegender Begriff der Informationstheorie


Bersicht

Übersicht

0. Einleitung

  • Entropie

  • Codierung von Alphabeten / Relative Entropie

  • Relative Entropie und .zip-Files

  • Beispieluntersuchung

  • Ergebnisse und Ausblick


Entropie 1 5

Entropie (1/5)


Entropie

Entropie

  • Unordnung wächst

  • Wahrscheinlichere Zustände treten auf

  • Gleichverteilung

  • Einfachere Strukturen

  • Weniger freie Energie

  • Weniger Informationsübertragung

Hohe Entropie

Geringe Entropie


Relative entropie

Entropie-zunahme

Meine richtige Kamera fiel der Entropie zum Opfer, sorry!

www.madebymark.com


In der informationstheorie betrachten wir die entropie einer sequenz

In der Informationstheorie betrachten wir die Entropie einer Sequenz.


Entropie einer sequenz

Entropie einer Sequenz

Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet,

Erklärung an der Tafel.


Die entropie einer sequenz ist zweifach beschr nkt

Die Entropie einer Sequenz ist zweifach beschränkt.

Beide Extremfälle werden an der Tafel erklärt.


Die entropie ist zweifach beschr nkt

Die Entropie ist zweifach beschränkt:

Minimale Entropie

Maximale Entropie


Erh hung der entropie

Erhöhung der Entropie

40 Stützstellen

sigma = 0.0002

Entropie = 1.1976


Erh hung der entropie1

Erhöhung der Entropie

40 Stützstellen

sigma = 0.002

Entropie = 2.8861


Erh hung der entropie2

Erhöhung der Entropie

40 Stützstellen

sigma = 0.02

Entropie = 4.5438


Informationsgehalt eines elements

Informationsgehalt eines Elements

Viele verknüpft Ereignisse

Geringe Shannon-Information

Wenig verknüpfte Ereignisse

Hohe Shannon-Information

Häufigkeit der Buchstaben in einem englischen Text


Codierung von alphabeten relative entropie 2 5

Codierung von Alphabeten /Relative Entropie (2/5)

Morse-Code für verschiedene Sprachen


Morsecode

Morsecode

Bildquelle:

Wikipedia.de

1 Bit

2 Bit

3 Bit

4 Bit


Die anzahl der verwendeten bits wird nach shannoninformation festgelegt

Die Anzahl der verwendeten Bits wird nach Shannoninformation festgelegt.


Zuteilung der bits

Zuteilung der Bits


Umso hnlicher die h ufigkeitsverteilung desto effizienter ist die codierung

Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.


Relative entropie1

Relative Entropie

  • Summe gewichteter inverser Häufigkeiten

  • Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an

  • Gutes Maß für die Anpassung einer Codierung


Relative entropie2

Relative Entropie


Relative entropie3

Relative Entropie

Äquivalent zu Kullback-Leibler-Distanz


F r die anwendung brauchen wir eine automatisierte methode

Für die Anwendung brauchen wir eine automatisierte Methode.


Praktischer chaitin kolmogorov entropie

Praktischer:Chaitin-Kolmogorov-Entropie

„Die Entropie einer Sequenz ist die Länge des kürzesten Programms, welches sie erzeugen kann.“


Relative entropie und zip files 3 5

Relative Entropie und .zip-Files (3/5)


Wie komprimieren wir eine sequenz

Wie komprimieren wir eine Sequenz?

  • Winzip

  • gzip

  • Zipgenius

  • bzip2


Kompression codierung

Kompression = Codierung

Ursprüngliche Sequenz:

1010010101001101

Wiederkehrende Stücke:

10 1001 010 1001101

Rückverweise: Startpunkt n, Länge l

101001 010 ( n=3, l=4)101


Die entropie entspricht der l nge der komprimierten sequenz das ist quivalent zur dateigr e

Die Entropie entspricht der Länge der komprimierten Sequenz. Das ist äquivalent zur Dateigröße!


Feststellen der relativen entropie

Feststellen der relativen Entropie Δ

Größe der gezippten Dateien: s(X)

Referenztext As(A)

+ t

+ t

Probetext t

Referenztext Bs(B)

+ t

Referenztext Cs(C)


Feststellen der relativen entropie1

Feststellen der relativen Entropie Δ

Größe der gezippten Dateien: s(X)

Referenztext A t s(A + t) Δ = s(A + t) – s(A)

Referenztext B t s(B + t) Δ = s(B + t) – s(B)

Referenztext C t s(C + t) Δ = s(C + t) – s(C)


Vorteile

Vorteile

  • Einfach zu handhaben

  • Allgemein anwendbar

  • Kein Vorwissen über Daten benötigt

  • Verlässlich


Beispieluntersuchung 4 5

Beispieluntersuchung (4/5)


Beispieluntersuchung

Beispieluntersuchung

  • Drei Referenztexte ( ca. 60 kB)

  • Drei Probestücke ( 2, 3 und 4 kB)

  • Deutsch, Englisch, Französisch


Normierte relative entropien

Normierte relative Entropien


Ergebnisse 5 5 benedetto caglioti loreto 2008

Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008

  • Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher

  • Autorenschaft Sicherheit 93,3%


Ausblick

Ausblick

  • DNA-Analyse

  • Aktienmärkte

  • Geologische Zeitserien

  • Medizinische Untersuchungen


Danke f r s durchhalten

Danke für‘s Durchhalten!


Quellen

Quellen

  • D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002)

  • D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003


  • Login