Relative entropie
Download
1 / 42

Relative Entropie - PowerPoint PPT Presentation


  • 77 Views
  • Uploaded on

Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch ….

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Relative Entropie' - alexandra-valdez


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Relative entropie

Relative Entropie

„Spracherkennung mit zip-Programmen“

aus der Sicht des Physikstudenten Lennart Hilbert


Orientierung an language trees and zipping benedetto caglioti loreto 2008

Orientierung an„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008


Beispiel spracherkennung

Vergleichsdatenbank mit Referenztexten

Französisch

Spanisch

Englisch

Tschechisch

Textstück unbe-kannter Sprache

Zu welchem Text besteht größte Ähnlichkeit?

Beispiel Spracherkennung



Messgr e relative entropie
Messgröße:Relative Entropie

  • Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen

  • Grundlegender Begriff der Informationstheorie


Bersicht
Übersicht

0. Einleitung

  • Entropie

  • Codierung von Alphabeten / Relative Entropie

  • Relative Entropie und .zip-Files

  • Beispieluntersuchung

  • Ergebnisse und Ausblick



Entropie
Entropie

  • Unordnung wächst

  • Wahrscheinlichere Zustände treten auf

  • Gleichverteilung

  • Einfachere Strukturen

  • Weniger freie Energie

  • Weniger Informationsübertragung

Hohe Entropie

Geringe Entropie


Entropie-zunahme

Meine richtige Kamera fiel der Entropie zum Opfer, sorry!

www.madebymark.com



Entropie einer sequenz

Entropie einer Sequenz Sequenz.

Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet,

Erklärung an der Tafel.


Die entropie einer sequenz ist zweifach beschr nkt

Die Entropie einer Sequenz ist zweifach beschränkt. Sequenz.

Beide Extremfälle werden an der Tafel erklärt.


Die entropie ist zweifach beschr nkt
Die Entropie ist zweifach beschränkt: Sequenz.

Minimale Entropie

Maximale Entropie


Erh hung der entropie
Erhöhung der Entropie Sequenz.

40 Stützstellen

sigma = 0.0002

Entropie = 1.1976


Erh hung der entropie1
Erhöhung der Entropie Sequenz.

40 Stützstellen

sigma = 0.002

Entropie = 2.8861


Erh hung der entropie2
Erhöhung der Entropie Sequenz.

40 Stützstellen

sigma = 0.02

Entropie = 4.5438


Informationsgehalt eines elements
Informationsgehalt eines Elements Sequenz.

Viele verknüpft Ereignisse

Geringe Shannon-Information

Wenig verknüpfte Ereignisse

Hohe Shannon-Information

Häufigkeit der Buchstaben in einem englischen Text


Codierung von alphabeten relative entropie 2 5

Codierung von Alphabeten / Sequenz.Relative Entropie (2/5)

Morse-Code für verschiedene Sprachen


Morsecode
Morsecode Sequenz.

Bildquelle:

Wikipedia.de

1 Bit

2 Bit

3 Bit

4 Bit



Zuteilung der bits
Zuteilung der Bits festgelegt.



Relative entropie1
Relative Entropie effizienter ist die Codierung.

  • Summe gewichteter inverser Häufigkeiten

  • Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an

  • Gutes Maß für die Anpassung einer Codierung


Relative entropie2
Relative Entropie effizienter ist die Codierung.


Relative entropie3
Relative Entropie effizienter ist die Codierung.

Äquivalent zu Kullback-Leibler-Distanz



Praktischer chaitin kolmogorov entropie

Praktischer: effizienter ist die Codierung.Chaitin-Kolmogorov-Entropie

„Die Entropie einer Sequenz ist die Länge des kürzesten Programms, welches sie erzeugen kann.“


Relative entropie und zip files 3 5

Relative Entropie und .zip-Files (3/5) effizienter ist die Codierung.


Wie komprimieren wir eine sequenz
Wie komprimieren wir eine Sequenz? effizienter ist die Codierung.

  • Winzip

  • gzip

  • Zipgenius

  • bzip2


Kompression codierung
Kompression = Codierung effizienter ist die Codierung.

Ursprüngliche Sequenz:

1010010101001101

Wiederkehrende Stücke:

10 1001 010 1001101

Rückverweise: Startpunkt n, Länge l

101001 010 ( n=3, l=4)101


Die entropie entspricht der l nge der komprimierten sequenz das ist quivalent zur dateigr e

Die Entropie entspricht der Länge der komprimierten Sequenz. Das ist äquivalent zur Dateigröße!


Feststellen der relativen entropie
Feststellen der relativen Entropie Sequenz. Das ist äquivalent zur Dateigröße!Δ

Größe der gezippten Dateien: s(X)

Referenztext A s(A)

+ t

+ t

Probetext t

Referenztext B s(B)

+ t

Referenztext C s(C)


Feststellen der relativen entropie1
Feststellen der relativen Entropie Sequenz. Das ist äquivalent zur Dateigröße!Δ

Größe der gezippten Dateien: s(X)

Referenztext A t s(A + t) Δ = s(A + t) – s(A)

Referenztext B t s(B + t) Δ = s(B + t) – s(B)

Referenztext C t s(C + t) Δ = s(C + t) – s(C)


Vorteile
Vorteile Sequenz. Das ist äquivalent zur Dateigröße!

  • Einfach zu handhaben

  • Allgemein anwendbar

  • Kein Vorwissen über Daten benötigt

  • Verlässlich


Beispieluntersuchung 4 5

Beispieluntersuchung (4/5) Sequenz. Das ist äquivalent zur Dateigröße!


Beispieluntersuchung
Beispieluntersuchung Sequenz. Das ist äquivalent zur Dateigröße!

  • Drei Referenztexte ( ca. 60 kB)

  • Drei Probestücke ( 2, 3 und 4 kB)

  • Deutsch, Englisch, Französisch


Normierte relative entropien
Normierte relative Entropien Sequenz. Das ist äquivalent zur Dateigröße!


Ergebnisse 5 5 benedetto caglioti loreto 2008
Ergebnisse (5/5) Sequenz. Das ist äquivalent zur Dateigröße!Benedetto, Caglioti, Loreto 2008

  • Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher

  • Autorenschaft Sicherheit 93,3%


Ausblick
Ausblick Sequenz. Das ist äquivalent zur Dateigröße!

  • DNA-Analyse

  • Aktienmärkte

  • Geologische Zeitserien

  • Medizinische Untersuchungen


Danke f r s durchhalten

Danke für‘s Durchhalten! Sequenz. Das ist äquivalent zur Dateigröße!


Quellen
Quellen Sequenz. Das ist äquivalent zur Dateigröße!

  • D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002)

  • D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003


ad