Teoria dell informazione classica
This presentation is the property of its rightful owner.
Sponsored Links
1 / 126

Teoria dell’Informazione (Classica) PowerPoint PPT Presentation


  • 204 Views
  • Uploaded on
  • Presentation posted in: General

Teoria dell’Informazione (Classica). Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione. Lezione 1. 3 ottobre 2002. Programma del Corso. Che cos’è l’Informazione e che cos’è la T.I. Richiami di Teoria della Probabilità

Download Presentation

Teoria dell’Informazione (Classica)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Teoria dell informazione classica

Teoria dell’Informazione (Classica)

Andrea G. B. Tettamanzi

Università degli Studi di Milano

Dipartimento di Tecnologie dell’Informazione


Lezione 1

Lezione 1

3 ottobre 2002


Programma del corso

Programma del Corso

  • Che cos’è l’Informazione e che cos’è la T.I.

  • Richiami di Teoria della Probabilità

  • Proprietà matematiche utilizzate nella T.I.

  • Misura dell’informazione: l’Entropia.

  • Codici

  • Comunicazione in presenza di rumore

  • Codici a correzione d’errore

  • Cenni sulla Teoria della Trasmissione

  • Cenni di Crittografia


Bibliografia

Bibliografia

  • E. ANGELERI: Informazione: significato e universalità, UTET, Torino, 2000. (libro di testo)

  • J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988.

  • J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.


Ricevimento studenti

Ricevimento Studenti

  • Giovedì, dalle ore 14.00 alle ore 16.00

  • Per appuntamento:

    • e-mail: [email protected]

    • tel.: 03 73 89 82 48

  • Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”


Modalit di esame

Modalità di Esame

  • Scritto: 3 o 4 esercizi che coprono vari argomenti del corso.

    • Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame”

  • Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.


Che cos l informazione

Che Cos’è l’Informazione?

SINTASSI

SEMANTICA

PRAGMATICA


Informazione

Informazione

informazione

significato

apparato

simbolico

Rilevanza pratica dell’informazione (effetto, scopo, ecc.)


Informazione semantica

Informazione - semantica

  • La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude.

U

B

A


Che cos la teoria dell informazione

Che cos’è la Teoria dell’Informazione?

  • Una teoria matematica dell’aspetto simbolico dell’Informazione

  • Un approccio quantitativo alla nozione di Informazione

  • Risponde alle domande:

    • Come immagazzinare e trasmettere informazione in modo compatto? (compressione)

    • Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione)

    • Come posso proteggere la mia informazione:

      • dalla corruzione del suo supporto o da errori di trasmissione?

      • da sguardi indiscreti?


Compressione

invio

ricezione

Compressione

Immagazzinamento = Trasmissione

scrittura

t0

x0

x1

lettura

t1


Funzioni convesse

Funzioni convesse

Diseguaglianza fondamentale:


Convessit del valore atteso

Convessità del valore atteso

convessa

concava


Misura dell informazione

Misura dell’Informazione

Alfabeto di s simboli

R. V. L. Hartley

C

I

A

O

,

M

A

M

M

A

!

l

2

1

Messaggi possibili

R. Hartley

Perché il logaritmo? Perché così


Unit di misura dell informazione

Unità di misura dell’Informazione

La quantità di informazione che permette di distinguere uno

di due eventi equiprobabili e mutuamente esclusivi è l’unità

di misura dell’informazione: il bit.

Un simbolo di un alfabeto di s simboli equiprobabili porterà

un’informazione di

bit


Entropia informativa di shannon

Entropia informativa di Shannon

continua

simmetrica (commutativa)

additiva


Massimo dell entropia

Massimo dell’Entropia

N.B.:


Entropia delle lingue

Entropia delle lingue

Frequenze

dei simboli

testo


Ridondanza

Ridondanza

Efficienza di codifica


Informazione secondo kolmogorov

Informazione secondo Kolmogorov

Misura assoluta, non utilizza la probabilità

Y

X

y

x

fn.

parziale

ricorsiva

descrizioni

oggetti


Equivalenza con entropia di shannon

Equivalenza con entropia di Shannon


Lezione 2

Lezione 2

8 ottobre 2002


Assiomi dell entropia 1

Assiomi dell’entropia (1)

1

Misura d’incertezza,

max con eventi equiprobabili

2

(simmetrica)

3

4


Assiomi dell entropia 2

Assiomi dell’entropia (2)

5

6

continua

7

8

(diramazione)


Teorema

Teorema

Se H soddisfa gli otto assiomi,

Basterebbero 4 assiomi “minimali”:

- continuità;

- simmetria;

- proprietà di diramazione

- H(1/2, 1/2) = 1


Modello della comunicazione

Modello della comunicazione

sorgente

destinazione

canale

rumore


Modello dettagliato

Modello dettagliato

Sorgente di

informazione

Destinazione

riduzione

ricostruzione

Codifica

sorgente

Decodifica

sorgente

distorsione

(rumore)

cifratura

decifrazione

Codifica

canale

Decodifica

canale

Canale discreto

modulazione

Canale continuo

demodulazione


Sorgente discreta senza memoria

Sorgente discreta senza memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità p(x), i.i.d.


Propriet

Proprietà

Indipendenza statistica e stazionarietà:

autoinformazione


Il concetto di codice

Il concetto di codice

Alfabeto sorgente

Alfabeto del codice


Esempio codifica delle cifre decimali

Esempio: codifica delle cifre decimali

Cifra

decimale

Rappresentazione

binaria

0

1

2

3

4

5

6

7

8

9

0000

0001

0010

0011

0100

0101

0110

0111

1000

1001


Estensione di una sorgente

Estensione di una sorgente

Alfabeto base

Alfabeto esteso


Teorema1

Teorema

Data una sorgente senza memoria,

Dimostrazione:


Nel caso x 0 1

Nel caso X = {0, 1}


Lezione 3

Lezione 3

14 ottobre 2002


Classificazione dei codici

Classificazione dei codici

A blocco

Singolare

Non singolare

Unicamente

decodificabile

Non unicamente

decodificabile

Non istantaneo

Istantaneo


Esempi

Esempi

Non istantaneo:

Non unicamente

decodificabile:


Codici a prefisso

Codici a prefisso

Condizione necessaria e sufficiente perché un codice

sia istantaneo è che nessuna parola del codice sia un

prefisso di un’altra parola del codice.

0

0

0

1

1

1


Diseguaglianza di kraft

Diseguaglianza di Kraft

Condizione necessaria e sufficiente perché esista un

codice istantaneo con lunghezze di parola

è che


Dimostrazione sufficienza

Dimostrazione - sufficienza

Costruiamo un codice istantaneo che soddisfa


Teorema di mcmillan

Teorema di McMillan

Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft

Sviluppando la potenza, avremo qn termini della forma

ma allora deve essere


Teorema di codifica della sorgente

Teorema di codifica della sorgente

la lunghezza media di un codice istantaneo

Sia

a r simboli. Allora,


Dimostrazione

Dimostrazione

Kraft

Proprietà fondamentale dei logaritmi


Lezione 4

Lezione 4

21 ottobre 2002


Processi stocastici

Processi Stocastici

Un processo stocastico è una successione di v.a.

Ciascuna con la propria distribuzione di probabilità.

Notazione:


Catene di markov

0.4

0.7

0.6

A

B

C

0.75

0.3

0.25

Catene di Markov

Un processo stocastico

è una catena di Markov sse il suo stato dipende solo dallo

stato precedente, cioè, per ogni t,


Processi markoviani

Processi Markoviani

È un processo Markoviano di ordine m sse


Sorgente discreta con memoria

Sorgente discreta con memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità condizionata dagli m simboli generati in precedenza

Stazionarietà: le probabilità sono costanti nel tempo


Informazione e entropia condizionali

Informazione e Entropia condizionali

Informazione condizionale:

Entropia condizionale:


Propriet dell entropia condizionale

Proprietà dell’Entropia condizionale

Dimostrazione:


Struttura statistica delle lingue

Struttura statistica delle lingue

Distribuzione

a memoria 0:

Distribuzione

a memoria 1:

testo


Frequenze statistiche dell italiano

Frequenze statistiche dell’italiano


Approssimazioni

Approssimazioni

Memoria 0:

E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A

OOEPVUNCNCM AALPNESCIESI ...

Memoria 1:

NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA

PRANA ...

Memoria 2:

OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA

SE AL MILA ...

Memoria 3:


Stima dell entropia con memoria infinita

Stima dell’Entropia con memoria infinita

Esperimento di Shannon


Entropia nelle sorgenti con memoria

Entropia nelle sorgenti con Memoria


Teorema2

Teorema

L’entropia di una sorgente con memoria è tanto minore quanto

maggiore è l’ordine della memoria.


Dimostrazione1

Dimostrazione

(Per semplicità, solo nel caso a memoria di ordine 1)

Inoltre,


Lezione 5

Lezione 5

24 ottobre 2002


Codici ottimali con probabilit note a priori

Codici ottimali con probabilità note a priori

Osservazione: in un codice C ottimale,

Dimostrazione: si supponga di scambiare le due parole in questione

Siccome C è ottimale,

quindi deve essere per forza

c.v.d.


Codici ottimali con probabilit note a priori1

Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe hanno la stessa lunghezza.

Dimostrazione: se così non fosse, potrei sopprimere l’ultima

parte delle parole più lunghe senza perdere la proprietà di prefisso

e ottenendo un codice migliore (assurdo).


Codici ottimali con probabilit note a priori2

Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe sono associate agli r simboli sorgente

meno probabili e differiscono solo per l’ultimo simbolo.

Dimostrazione: per

0

0

0

0

1

1

0

0

1

1

0

1

1


Codice di fano

Codice di Fano

  • Ordinare i simboli sorgente in ordine di probabilità decrescente

  • Dividere al meglio i simboli in r gruppi equiprobabili

  • Assegnare a ciascun gruppo uno degli r simboli come prefisso

  • Ripetere la divisione per gruppi in modo ricorsivo finché possibile


Esempio

Esempio

probabilità

codice

simbolo

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9


Codice di shannon

Codice di Shannon

Calcolare le probabilità cumulative

Scriverle in notazione r-aria

Il numero di simboli per parola di codice è dato da

cioè


Esempio1

Esempio

simbolo

probabilità

prob. Cum.

lunghezza

codice

2

2

3

3

4

4

5

5

5

5

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

0

1/4

1/2

5/8

3/4

13/16

7/8

29/32

15/16

31/32


Codice di huffman

Codice di Huffman

  • Ordinare i simboli sorgente per probabilità decrescente

  • Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo

  • Ripetere il raggruppamento finché possibile

  • Restano al massimo r simboli o gruppi di simboli

  • Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso

  • Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata


Esempio2

0

1

0

1

0

1

0

1

0

1

Esempio

simbolo

probabilità

codice

0

1

2

3

4

5

0.4

0.3

0.1

0.1

0.06

0.04

0.4

0.3

0.1

0.1

0.1

0.4

0.3

0.2

0.1

0.4

0.3

0.3

0.6

0.4

1

00

011

0100

01010

01011


Ottimalit del codice di huffman

Ottimalità del codice di Huffman


Codice alfabetico o di gilbert moore

Codice alfabetico (o di Gilbert-Moore)

Ordinare i simboli sorgente secondo qualche criterio

La lunghezza di ciascuna parola di codice è data da

cioè

Determinare la sequenza

Rappresentare in base r

ciascuno di questi numeri

secondo la lunghezza

calcolata


Esempio3

Esempio

simbolo

probabilità

codice

0.0988

0.0945

0.0863

0.0849

0.0255

0.0684

.

.

.

5

5

5

5

7

5

.

.

.

0.0494

0.14605

0.23645

0.32245

0.37725

0.4242

.

.

.

00001

00100

00111

01010

0110000

01101

.

.

.

A

E

I

O

U

N

.

.

.


Codice aritmetico

Codice aritmetico

1

0


Codice aritmetico algoritmo

Codice Aritmetico: Algoritmo

s[1..n] è la stringa da codificare

c = 0;

a = 1;

for i = 1 to n do

begin

c = c +a*ProbCum(s[i]);

a = a*Prob(s[i]);

end

c (scritto in base 2) è

il codice cercato

c è il codice ricevuto

a = 1;

for i = 1 to n do

begin

s[i] = FindSymbol(c);

c = (c -ProbCum(s[i]))

/Prob(s[i]);

i = i + 1;

end

s[1..n] è la stringa cercata


Lezione 6

Lezione 6

28 ottobre 2002


Algoritmo di lempel e ziv

Algoritmo di Lempel e Ziv

1.Da sinistra a destra, scrivere ogni volta la parola più breve

mai incontrata prima, fino alla fine del testo;

2.Per ogni parola, separare il prefisso (una parola già incontrata)

dal simbolo finale;

3.Codificare ogni parola con una coppia formata dalla posizione

suo prefisso nella lista e dal simbolo finale che deve essere

aggiunto.


Esempio4

Esempio

1011010011010...

1, 0, 11, 01, 00, 110, 10, ...

(passo 1)

1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ...

(passo 2)

(0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...

(passo 3)

000 1 000 0 001 1 010 1 010 0 011 0 001 0 ...


Efficienza del codice di lempel e ziv

Efficienza del codice di Lempel e Ziv

parole in un messaggio di lunghezza n

bit necessari per codificare la posizione di un prefisso

Lunghezza della codifica di un messaggio di lunghezza n:

Efficienza del codice di Lempel-Ziv:


Teorema3

Teorema

Data una sorgente stazionaria ergodica con alfabeto X ed

entropia H(X), vale

q.c.


Diseguaglianza di lempel e ziv

Diseguaglianza di Lempel e Ziv

con

Dimostrazione:

Lungh. Cum. parole lunghe al più l


Diseguaglianza di lempel e ziv segue

Diseguaglianza di Lempel e Ziv (segue)

Poniamo:

c.v.d.

Se ne conclude che


Legge dei grandi numeri

Legge dei grandi numeri

Debole:

Forte:


Diseguaglianza di eby ev

Diseguaglianza di Čebyšev

Dimostrazione:


Messaggi pi probabili

Messaggi più probabili

tutti i messaggi di lunghezza l

Numero di occorrenze di si in w

per la legge dei grandi numeri


Teorema di shannon mcmillan

Teorema di Shannon-McMillan

Data una sorgente discreta senza memoria S di entropia H(S),

Le parole di lunghezza l ricadono in due classi:

I)

II)


Dimostrazione2

Dimostrazione

Čebyšev:

Non dipende da l.


Lezione 7

Lezione 7

31 ottobre 2002


Teorema4

Teorema

Dimostrazione:


I teorema di shannon

I° Teorema di Shannon

Sia S una sorgente discreta senza memoria di entropia H(S).

Siano messaggi di lunghezza l codificati in parole di codice di

lunghezza L in un alfabeto di codice con r simboli.

Probabilità che occorra un messaggio per cui non sia

disponibile una parola di codice.


Dimostrazione3

Dimostrazione

ovvero

Ma:

quindi

= numero di parole di codice di lunghezza L

Ogni messaggio tipico ha una parola di codice; i messaggi atipici,

che non hanno una parola di codice associata, hanno probabilità di

occorrere pari a

c.v.d.


Il canale discreto senza memoria 1

Il canale discreto senza memoria (1)

C è un dispositivo in grado di associare in ogni istante t con

probabilità P(y | x) un simbolo y dell’alfabeto di destinazione

con un simbolo x dell’alfabeto sorgente.


Il canale discreto senza memoria 2

Il canale discreto senza memoria (2)


Esempio5

Esempio

0.571

0

0

0.286

0.143

?

0.143

0.286

1

1

0.571


Estensione di un canale

Estensione di un canale

Un canale è senza memoria sse:


Informazione mutua

Informazione mutua


Transinformazione

Transinformazione

Informazione mutua di sistema:


Capacit di canale

Capacità di canale

Dipende solo dalle caratteristiche del canale e dalla distribuzione

in ingresso. Ipotesi di canale costante.

L’informazione mutua è max quando la transinformazione è

indipendente dalla distribuzione in ingresso.


Equivocazione irrilevanza

Equivocazione, Irrilevanza

irrilevanza

equivocazione

informazione mutua


Lezione 8

Lezione 8

4 novembre 2002


Canale binario simmetrico

Canale binario simmetrico

0

0

1

1


Capacit del canale binario simmetrico

Capacità del canale binario simmetrico


Capacit del canale binario simmetrico1

Capacità del canale binario simmetrico

1

0.5

1

0


Canale simmetrico a cancellazione

Canale simmetrico a cancellazione

0

0

?

1

1


Capacit dei canali simmetrici

Capacità dei canali simmetrici

simmetria


Capacit del c s c

Capacità del c.s.c.

1

0.5

1

0


Canali in cascata

Canali in cascata

CANALE 1

CANALE 2


Teorema5

Teorema

(detto “Della Elaborazione dei Dati)

L’informazione mutua non può aumentare al crescere dei

canali attraversati; semmai può diminuire.

In successive elaborazioni dei dati,

si può solo verificare una perdita d’informazione,

mai un guadagno.


Dimostrazione4

Dimostrazione

diseguaglianza

fondamentale


Probabilit di errore ed equivocazione

Probabilità di errore ed equivocazione

Sia

(matrice di canale quadrata)

Si può dimostrare che la probabilità di errore per il trasmittente

e per il ricevente è identica:


Diseguaglianza di fano

Diseguaglianza di Fano

probabilità di errore

equivocazione

dove

L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto

che sia stato commesso un errore e, in caso affermativo,

l’incertezza su quale dei restanti simboli sia stato trasmesso.


Dimostrazione5

Dimostrazione

1

2


Dimostrazione segue

Dimostrazione (segue)

2

1


Corollario

Corollario

quando


Lezione 9

Lezione 9

7 novembre 2002


Distanza di hamming

Distanza di Hamming

Esempio:

0 0 1 0 1 1 0 0

0 0 1 0 1 0 1 0


Spazio di hamming di dimensione n

Spazio di Hamming di dimensione n

Spazio di Hamming di dimensione l

Esempi:

011

111

1

01

11

010

010

110

001

101

0

00

000

100

0000

1000

10


Ii teorema di shannon

II° Teorema di Shannon

Dato un canale discreto senza memoria di capacità C,

a) è possibile trasmettere una quantità di informazione H(X)

con probabilità d’errore piccola a piacere, a patto che

b) Se

comunque codifichiamo i messaggi, sarà


Dimostrazione di b

Dimostrazione di b)

Ipotesi:

Tesi:

Fano

Poniamo

Allora


Grafico di f z

Grafico di f(z)


Dimostrazione di a

Dimostrazione di a)

Ipotesi:

Tesi:

Assumiamo r = 2 senza perdita di generalità

Parole di codice di lunghezza l

messaggi

bit/simbolo

N.B.:

parole di codice delle

Usiamo solo

Costruiamo un codice “a caso” e dimostriamo che


Codice casuale

Codice “casuale”

parole di codice tra le

Estraiamo a caso

Sia

la probabilità di errore del canale (per simbolo!)

CANALE


Errore

Errore


Volume di una sfera di raggio d

Volume di una sfera di raggio d

In uno spazio di Hamming di dimensione l

numero di parole binarie di lunghezza l che differiscono

da una data parola w (centro) in al più d posizioni.


Lemma

Lemma

Dimostrazione:

i)

diseguaglianza

fondamentale

ii)

c.v.d.


Probabilit di errore per un dato codice

Probabilità di errore per un dato codice

Per il Teorema dei grandi numeri:


Probabilit media di errore

Probabilità media di errore

Parole contenute in


Conclusione della dimostrazione

Conclusione della dimostrazione

Sviluppiamo in serie di Taylor, ricordando che

Per cui:

c.v.d.


Andamento della probabilit di errore

Andamento della probabilità di errore

0


  • Login