Teoria dell informazione classica
Download
1 / 126

Teoria dell’Informazione (Classica) - PowerPoint PPT Presentation


  • 234 Views
  • Uploaded on
  • Presentation posted in: General

Teoria dell’Informazione (Classica). Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione. Lezione 1. 3 ottobre 2002. Programma del Corso. Che cos’è l’Informazione e che cos’è la T.I. Richiami di Teoria della Probabilità

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha

Download Presentation

Teoria dell’Informazione (Classica)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Teoria dell’Informazione (Classica)

Andrea G. B. Tettamanzi

Università degli Studi di Milano

Dipartimento di Tecnologie dell’Informazione


Lezione 1

3 ottobre 2002


Programma del Corso

  • Che cos’è l’Informazione e che cos’è la T.I.

  • Richiami di Teoria della Probabilità

  • Proprietà matematiche utilizzate nella T.I.

  • Misura dell’informazione: l’Entropia.

  • Codici

  • Comunicazione in presenza di rumore

  • Codici a correzione d’errore

  • Cenni sulla Teoria della Trasmissione

  • Cenni di Crittografia


Bibliografia

  • E. ANGELERI: Informazione: significato e universalità, UTET, Torino, 2000. (libro di testo)

  • J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988.

  • J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.


Ricevimento Studenti

  • Giovedì, dalle ore 14.00 alle ore 16.00

  • Per appuntamento:

    • e-mail: andrea.tettamanzi@unimi.it

    • tel.: 03 73 89 82 48

  • Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”


Modalità di Esame

  • Scritto: 3 o 4 esercizi che coprono vari argomenti del corso.

    • Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame”

  • Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.


Che Cos’è l’Informazione?

SINTASSI

SEMANTICA

PRAGMATICA


Informazione

informazione

significato

apparato

simbolico

Rilevanza pratica dell’informazione (effetto, scopo, ecc.)


Informazione - semantica

  • La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude.

U

B

A


Che cos’è la Teoria dell’Informazione?

  • Una teoria matematica dell’aspetto simbolico dell’Informazione

  • Un approccio quantitativo alla nozione di Informazione

  • Risponde alle domande:

    • Come immagazzinare e trasmettere informazione in modo compatto? (compressione)

    • Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione)

    • Come posso proteggere la mia informazione:

      • dalla corruzione del suo supporto o da errori di trasmissione?

      • da sguardi indiscreti?


invio

ricezione

Compressione

Immagazzinamento = Trasmissione

scrittura

t0

x0

x1

lettura

t1


Funzioni convesse

Diseguaglianza fondamentale:


Convessità del valore atteso

convessa

concava


Misura dell’Informazione

Alfabeto di s simboli

R. V. L. Hartley

C

I

A

O

,

M

A

M

M

A

!

l

2

1

Messaggi possibili

R. Hartley

Perché il logaritmo? Perché così


Unità di misura dell’Informazione

La quantità di informazione che permette di distinguere uno

di due eventi equiprobabili e mutuamente esclusivi è l’unità

di misura dell’informazione: il bit.

Un simbolo di un alfabeto di s simboli equiprobabili porterà

un’informazione di

bit


Entropia informativa di Shannon

continua

simmetrica (commutativa)

additiva


Massimo dell’Entropia

N.B.:


Entropia delle lingue

Frequenze

dei simboli

testo


Ridondanza

Efficienza di codifica


Informazione secondo Kolmogorov

Misura assoluta, non utilizza la probabilità

Y

X

y

x

fn.

parziale

ricorsiva

descrizioni

oggetti


Equivalenza con entropia di Shannon


Lezione 2

8 ottobre 2002


Assiomi dell’entropia (1)

1

Misura d’incertezza,

max con eventi equiprobabili

2

(simmetrica)

3

4


Assiomi dell’entropia (2)

5

6

continua

7

8

(diramazione)


Teorema

Se H soddisfa gli otto assiomi,

Basterebbero 4 assiomi “minimali”:

- continuità;

- simmetria;

- proprietà di diramazione

- H(1/2, 1/2) = 1


Modello della comunicazione

sorgente

destinazione

canale

rumore


Modello dettagliato

Sorgente di

informazione

Destinazione

riduzione

ricostruzione

Codifica

sorgente

Decodifica

sorgente

distorsione

(rumore)

cifratura

decifrazione

Codifica

canale

Decodifica

canale

Canale discreto

modulazione

Canale continuo

demodulazione


Sorgente discreta senza memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità p(x), i.i.d.


Proprietà

Indipendenza statistica e stazionarietà:

autoinformazione


Il concetto di codice

Alfabeto sorgente

Alfabeto del codice


Esempio: codifica delle cifre decimali

Cifra

decimale

Rappresentazione

binaria

0

1

2

3

4

5

6

7

8

9

0000

0001

0010

0011

0100

0101

0110

0111

1000

1001


Estensione di una sorgente

Alfabeto base

Alfabeto esteso


Teorema

Data una sorgente senza memoria,

Dimostrazione:


Nel caso X = {0, 1}


Lezione 3

14 ottobre 2002


Classificazione dei codici

A blocco

Singolare

Non singolare

Unicamente

decodificabile

Non unicamente

decodificabile

Non istantaneo

Istantaneo


Esempi

Non istantaneo:

Non unicamente

decodificabile:


Codici a prefisso

Condizione necessaria e sufficiente perché un codice

sia istantaneo è che nessuna parola del codice sia un

prefisso di un’altra parola del codice.

0

0

0

1

1

1


Diseguaglianza di Kraft

Condizione necessaria e sufficiente perché esista un

codice istantaneo con lunghezze di parola

è che


Dimostrazione - sufficienza

Costruiamo un codice istantaneo che soddisfa


Teorema di McMillan

Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft

Sviluppando la potenza, avremo qn termini della forma

ma allora deve essere


Teorema di codifica della sorgente

la lunghezza media di un codice istantaneo

Sia

a r simboli. Allora,


Dimostrazione

Kraft

Proprietà fondamentale dei logaritmi


Lezione 4

21 ottobre 2002


Processi Stocastici

Un processo stocastico è una successione di v.a.

Ciascuna con la propria distribuzione di probabilità.

Notazione:


0.4

0.7

0.6

A

B

C

0.75

0.3

0.25

Catene di Markov

Un processo stocastico

è una catena di Markov sse il suo stato dipende solo dallo

stato precedente, cioè, per ogni t,


Processi Markoviani

È un processo Markoviano di ordine m sse


Sorgente discreta con memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità condizionata dagli m simboli generati in precedenza

Stazionarietà: le probabilità sono costanti nel tempo


Informazione e Entropia condizionali

Informazione condizionale:

Entropia condizionale:


Proprietà dell’Entropia condizionale

Dimostrazione:


Struttura statistica delle lingue

Distribuzione

a memoria 0:

Distribuzione

a memoria 1:

testo


Frequenze statistiche dell’italiano


Approssimazioni

Memoria 0:

E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A

OOEPVUNCNCM AALPNESCIESI ...

Memoria 1:

NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA

PRANA ...

Memoria 2:

OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA

SE AL MILA ...

Memoria 3:


Stima dell’Entropia con memoria infinita

Esperimento di Shannon


Entropia nelle sorgenti con Memoria


Teorema

L’entropia di una sorgente con memoria è tanto minore quanto

maggiore è l’ordine della memoria.


Dimostrazione

(Per semplicità, solo nel caso a memoria di ordine 1)

Inoltre,


Lezione 5

24 ottobre 2002


Codici ottimali con probabilità note a priori

Osservazione: in un codice C ottimale,

Dimostrazione: si supponga di scambiare le due parole in questione

Siccome C è ottimale,

quindi deve essere per forza

c.v.d.


Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe hanno la stessa lunghezza.

Dimostrazione: se così non fosse, potrei sopprimere l’ultima

parte delle parole più lunghe senza perdere la proprietà di prefisso

e ottenendo un codice migliore (assurdo).


Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe sono associate agli r simboli sorgente

meno probabili e differiscono solo per l’ultimo simbolo.

Dimostrazione: per

0

0

0

0

1

1

0

0

1

1

0

1

1


Codice di Fano

  • Ordinare i simboli sorgente in ordine di probabilità decrescente

  • Dividere al meglio i simboli in r gruppi equiprobabili

  • Assegnare a ciascun gruppo uno degli r simboli come prefisso

  • Ripetere la divisione per gruppi in modo ricorsivo finché possibile


Esempio

probabilità

codice

simbolo

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9


Codice di Shannon

Calcolare le probabilità cumulative

Scriverle in notazione r-aria

Il numero di simboli per parola di codice è dato da

cioè


Esempio

simbolo

probabilità

prob. Cum.

lunghezza

codice

2

2

3

3

4

4

5

5

5

5

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

0

1/4

1/2

5/8

3/4

13/16

7/8

29/32

15/16

31/32


Codice di Huffman

  • Ordinare i simboli sorgente per probabilità decrescente

  • Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo

  • Ripetere il raggruppamento finché possibile

  • Restano al massimo r simboli o gruppi di simboli

  • Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso

  • Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata


0

1

0

1

0

1

0

1

0

1

Esempio

simbolo

probabilità

codice

0

1

2

3

4

5

0.4

0.3

0.1

0.1

0.06

0.04

0.4

0.3

0.1

0.1

0.1

0.4

0.3

0.2

0.1

0.4

0.3

0.3

0.6

0.4

1

00

011

0100

01010

01011


Ottimalità del codice di Huffman


Codice alfabetico (o di Gilbert-Moore)

Ordinare i simboli sorgente secondo qualche criterio

La lunghezza di ciascuna parola di codice è data da

cioè

Determinare la sequenza

Rappresentare in base r

ciascuno di questi numeri

secondo la lunghezza

calcolata


Esempio

simbolo

probabilità

codice

0.0988

0.0945

0.0863

0.0849

0.0255

0.0684

.

.

.

5

5

5

5

7

5

.

.

.

0.0494

0.14605

0.23645

0.32245

0.37725

0.4242

.

.

.

00001

00100

00111

01010

0110000

01101

.

.

.

A

E

I

O

U

N

.

.

.


Codice aritmetico

1

0


Codice Aritmetico: Algoritmo

s[1..n] è la stringa da codificare

c = 0;

a = 1;

for i = 1 to n do

begin

c = c +a*ProbCum(s[i]);

a = a*Prob(s[i]);

end

c (scritto in base 2) è

il codice cercato

c è il codice ricevuto

a = 1;

for i = 1 to n do

begin

s[i] = FindSymbol(c);

c = (c -ProbCum(s[i]))

/Prob(s[i]);

i = i + 1;

end

s[1..n] è la stringa cercata


Lezione 6

28 ottobre 2002


Algoritmo di Lempel e Ziv

1.Da sinistra a destra, scrivere ogni volta la parola più breve

mai incontrata prima, fino alla fine del testo;

2.Per ogni parola, separare il prefisso (una parola già incontrata)

dal simbolo finale;

3.Codificare ogni parola con una coppia formata dalla posizione

suo prefisso nella lista e dal simbolo finale che deve essere

aggiunto.


Esempio

1011010011010...

1, 0, 11, 01, 00, 110, 10, ...

(passo 1)

1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ...

(passo 2)

(0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...

(passo 3)

000 1 000 0 001 1 010 1 010 0 011 0 001 0 ...


Efficienza del codice di Lempel e Ziv

parole in un messaggio di lunghezza n

bit necessari per codificare la posizione di un prefisso

Lunghezza della codifica di un messaggio di lunghezza n:

Efficienza del codice di Lempel-Ziv:


Teorema

Data una sorgente stazionaria ergodica con alfabeto X ed

entropia H(X), vale

q.c.


Diseguaglianza di Lempel e Ziv

con

Dimostrazione:

Lungh. Cum. parole lunghe al più l


Diseguaglianza di Lempel e Ziv (segue)

Poniamo:

c.v.d.

Se ne conclude che


Legge dei grandi numeri

Debole:

Forte:


Diseguaglianza di Čebyšev

Dimostrazione:


Messaggi più probabili

tutti i messaggi di lunghezza l

Numero di occorrenze di si in w

per la legge dei grandi numeri


Teorema di Shannon-McMillan

Data una sorgente discreta senza memoria S di entropia H(S),

Le parole di lunghezza l ricadono in due classi:

I)

II)


Dimostrazione

Čebyšev:

Non dipende da l.


Lezione 7

31 ottobre 2002


Teorema

Dimostrazione:


I° Teorema di Shannon

Sia S una sorgente discreta senza memoria di entropia H(S).

Siano messaggi di lunghezza l codificati in parole di codice di

lunghezza L in un alfabeto di codice con r simboli.

Probabilità che occorra un messaggio per cui non sia

disponibile una parola di codice.


Dimostrazione

ovvero

Ma:

quindi

= numero di parole di codice di lunghezza L

Ogni messaggio tipico ha una parola di codice; i messaggi atipici,

che non hanno una parola di codice associata, hanno probabilità di

occorrere pari a

c.v.d.


Il canale discreto senza memoria (1)

C è un dispositivo in grado di associare in ogni istante t con

probabilità P(y | x) un simbolo y dell’alfabeto di destinazione

con un simbolo x dell’alfabeto sorgente.


Il canale discreto senza memoria (2)


Esempio

0.571

0

0

0.286

0.143

?

0.143

0.286

1

1

0.571


Estensione di un canale

Un canale è senza memoria sse:


Informazione mutua


Transinformazione

Informazione mutua di sistema:


Capacità di canale

Dipende solo dalle caratteristiche del canale e dalla distribuzione

in ingresso. Ipotesi di canale costante.

L’informazione mutua è max quando la transinformazione è

indipendente dalla distribuzione in ingresso.


Equivocazione, Irrilevanza

irrilevanza

equivocazione

informazione mutua


Lezione 8

4 novembre 2002


Canale binario simmetrico

0

0

1

1


Capacità del canale binario simmetrico


Capacità del canale binario simmetrico

1

0.5

1

0


Canale simmetrico a cancellazione

0

0

?

1

1


Capacità dei canali simmetrici

simmetria


Capacità del c.s.c.

1

0.5

1

0


Canali in cascata

CANALE 1

CANALE 2


Teorema

(detto “Della Elaborazione dei Dati)

L’informazione mutua non può aumentare al crescere dei

canali attraversati; semmai può diminuire.

In successive elaborazioni dei dati,

si può solo verificare una perdita d’informazione,

mai un guadagno.


Dimostrazione

diseguaglianza

fondamentale


Probabilità di errore ed equivocazione

Sia

(matrice di canale quadrata)

Si può dimostrare che la probabilità di errore per il trasmittente

e per il ricevente è identica:


Diseguaglianza di Fano

probabilità di errore

equivocazione

dove

L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto

che sia stato commesso un errore e, in caso affermativo,

l’incertezza su quale dei restanti simboli sia stato trasmesso.


Dimostrazione

1

2


Dimostrazione (segue)

2

1


Corollario

quando


Lezione 9

7 novembre 2002


Distanza di Hamming

Esempio:

0 0 1 0 1 1 0 0

0 0 1 0 1 0 1 0


Spazio di Hamming di dimensione n

Spazio di Hamming di dimensione l

Esempi:

011

111

1

01

11

010

010

110

001

101

0

00

000

100

0000

1000

10


II° Teorema di Shannon

Dato un canale discreto senza memoria di capacità C,

a) è possibile trasmettere una quantità di informazione H(X)

con probabilità d’errore piccola a piacere, a patto che

b) Se

comunque codifichiamo i messaggi, sarà


Dimostrazione di b)

Ipotesi:

Tesi:

Fano

Poniamo

Allora


Grafico di f(z)


Dimostrazione di a)

Ipotesi:

Tesi:

Assumiamo r = 2 senza perdita di generalità

Parole di codice di lunghezza l

messaggi

bit/simbolo

N.B.:

parole di codice delle

Usiamo solo

Costruiamo un codice “a caso” e dimostriamo che


Codice “casuale”

parole di codice tra le

Estraiamo a caso

Sia

la probabilità di errore del canale (per simbolo!)

CANALE


Errore


Volume di una sfera di raggio d

In uno spazio di Hamming di dimensione l

numero di parole binarie di lunghezza l che differiscono

da una data parola w (centro) in al più d posizioni.


Lemma

Dimostrazione:

i)

diseguaglianza

fondamentale

ii)

c.v.d.


Probabilità di errore per un dato codice

Per il Teorema dei grandi numeri:


Probabilità media di errore

Parole contenute in


Conclusione della dimostrazione

Sviluppiamo in serie di Taylor, ricordando che

Per cui:

c.v.d.


Andamento della probabilità di errore

0


ad
  • Login