Teoria dell informazione classica
Download
1 / 126

Teoria dell Informazione Classica - PowerPoint PPT Presentation


  • 254 Views
  • Uploaded on

Teoria dell’Informazione (Classica). Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione. Lezione 1. 3 ottobre 2002. Programma del Corso. Che cos’è l’Informazione e che cos’è la T.I. Richiami di Teoria della Probabilità

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Teoria dell Informazione Classica' - Rita


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Teoria dell informazione classica

Teoria dell’Informazione (Classica)

Andrea G. B. Tettamanzi

Università degli Studi di Milano

Dipartimento di Tecnologie dell’Informazione


Lezione 1

Lezione 1

3 ottobre 2002


Programma del corso
Programma del Corso

  • Che cos’è l’Informazione e che cos’è la T.I.

  • Richiami di Teoria della Probabilità

  • Proprietà matematiche utilizzate nella T.I.

  • Misura dell’informazione: l’Entropia.

  • Codici

  • Comunicazione in presenza di rumore

  • Codici a correzione d’errore

  • Cenni sulla Teoria della Trasmissione

  • Cenni di Crittografia


Bibliografia
Bibliografia

  • E. ANGELERI: Informazione: significato e universalità, UTET, Torino, 2000. (libro di testo)

  • J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988.

  • J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.


Ricevimento studenti
Ricevimento Studenti

  • Giovedì, dalle ore 14.00 alle ore 16.00

  • Per appuntamento:

  • Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”


Modalit di esame
Modalità di Esame

  • Scritto: 3 o 4 esercizi che coprono vari argomenti del corso.

    • Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame”

  • Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.


Che cos l informazione
Che Cos’è l’Informazione?

SINTASSI

SEMANTICA

PRAGMATICA


Informazione
Informazione

informazione

significato

apparato

simbolico

Rilevanza pratica dell’informazione (effetto, scopo, ecc.)


Informazione semantica
Informazione - semantica

  • La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude.

U

B

A


Che cos la teoria dell informazione
Che cos’è la Teoria dell’Informazione?

  • Una teoria matematica dell’aspetto simbolico dell’Informazione

  • Un approccio quantitativo alla nozione di Informazione

  • Risponde alle domande:

    • Come immagazzinare e trasmettere informazione in modo compatto? (compressione)

    • Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione)

    • Come posso proteggere la mia informazione:

      • dalla corruzione del suo supporto o da errori di trasmissione?

      • da sguardi indiscreti?


Compressione

invio

ricezione

Compressione

Immagazzinamento = Trasmissione

scrittura

t0

x0

x1

lettura

t1


Funzioni convesse
Funzioni convesse

Diseguaglianza fondamentale:



Misura dell informazione
Misura dell’Informazione

Alfabeto di s simboli

R. V. L. Hartley

C

I

A

O

,

M

A

M

M

A

!

l

2

1

Messaggi possibili

R. Hartley

Perché il logaritmo? Perché così


Unit di misura dell informazione
Unità di misura dell’Informazione

La quantità di informazione che permette di distinguere uno

di due eventi equiprobabili e mutuamente esclusivi è l’unità

di misura dell’informazione: il bit.

Un simbolo di un alfabeto di s simboli equiprobabili porterà

un’informazione di

bit


Entropia informativa di shannon
Entropia informativa di Shannon

continua

simmetrica (commutativa)

additiva



Entropia delle lingue
Entropia delle lingue

Frequenze

dei simboli

testo


Ridondanza
Ridondanza

Efficienza di codifica


Informazione secondo kolmogorov
Informazione secondo Kolmogorov

Misura assoluta, non utilizza la probabilità

Y

X

y

x

fn.

parziale

ricorsiva

descrizioni

oggetti



Lezione 2

Lezione 2

8 ottobre 2002


Assiomi dell entropia 1
Assiomi dell’entropia (1)

1

Misura d’incertezza,

max con eventi equiprobabili

2

(simmetrica)

3

4


Assiomi dell entropia 2
Assiomi dell’entropia (2)

5

6

continua

7

8

(diramazione)


Teorema
Teorema

Se H soddisfa gli otto assiomi,

Basterebbero 4 assiomi “minimali”:

- continuità;

- simmetria;

- proprietà di diramazione

- H(1/2, 1/2) = 1


Modello della comunicazione
Modello della comunicazione

sorgente

destinazione

canale

rumore


Modello dettagliato
Modello dettagliato

Sorgente di

informazione

Destinazione

riduzione

ricostruzione

Codifica

sorgente

Decodifica

sorgente

distorsione

(rumore)

cifratura

decifrazione

Codifica

canale

Decodifica

canale

Canale discreto

modulazione

Canale continuo

demodulazione


Sorgente discreta senza memoria
Sorgente discreta senza memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità p(x), i.i.d.


Propriet
Proprietà

Indipendenza statistica e stazionarietà:

autoinformazione


Il concetto di codice
Il concetto di codice

Alfabeto sorgente

Alfabeto del codice


Esempio codifica delle cifre decimali
Esempio: codifica delle cifre decimali

Cifra

decimale

Rappresentazione

binaria

0

1

2

3

4

5

6

7

8

9

0000

0001

0010

0011

0100

0101

0110

0111

1000

1001


Estensione di una sorgente
Estensione di una sorgente

Alfabeto base

Alfabeto esteso


Teorema1
Teorema

Data una sorgente senza memoria,

Dimostrazione:



Lezione 3

Lezione 3

14 ottobre 2002


Classificazione dei codici
Classificazione dei codici

A blocco

Singolare

Non singolare

Unicamente

decodificabile

Non unicamente

decodificabile

Non istantaneo

Istantaneo


Esempi
Esempi

Non istantaneo:

Non unicamente

decodificabile:


Codici a prefisso
Codici a prefisso

Condizione necessaria e sufficiente perché un codice

sia istantaneo è che nessuna parola del codice sia un

prefisso di un’altra parola del codice.

0

0

0

1

1

1


Diseguaglianza di kraft
Diseguaglianza di Kraft

Condizione necessaria e sufficiente perché esista un

codice istantaneo con lunghezze di parola

è che


Dimostrazione sufficienza
Dimostrazione - sufficienza

Costruiamo un codice istantaneo che soddisfa


Teorema di mcmillan
Teorema di McMillan

Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft

Sviluppando la potenza, avremo qn termini della forma

ma allora deve essere


Teorema di codifica della sorgente
Teorema di codifica della sorgente

la lunghezza media di un codice istantaneo

Sia

a r simboli. Allora,


Dimostrazione
Dimostrazione

Kraft

Proprietà fondamentale dei logaritmi


Lezione 4

Lezione 4

21 ottobre 2002


Processi stocastici
Processi Stocastici

Un processo stocastico è una successione di v.a.

Ciascuna con la propria distribuzione di probabilità.

Notazione:


Catene di markov

0.4

0.7

0.6

A

B

C

0.75

0.3

0.25

Catene di Markov

Un processo stocastico

è una catena di Markov sse il suo stato dipende solo dallo

stato precedente, cioè, per ogni t,


Processi markoviani
Processi Markoviani

È un processo Markoviano di ordine m sse


Sorgente discreta con memoria
Sorgente discreta con memoria

S è un dispositivo che genera ad ogni istante t un simbolo x con

probabilità condizionata dagli m simboli generati in precedenza

Stazionarietà: le probabilità sono costanti nel tempo


Informazione e entropia condizionali
Informazione e Entropia condizionali

Informazione condizionale:

Entropia condizionale:



Struttura statistica delle lingue
Struttura statistica delle lingue

Distribuzione

a memoria 0:

Distribuzione

a memoria 1:

testo



Approssimazioni
Approssimazioni

Memoria 0:

E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A

OOEPVUNCNCM AALPNESCIESI ...

Memoria 1:

NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA

PRANA ...

Memoria 2:

OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA

SE AL MILA ...

Memoria 3:




Teorema2
Teorema

L’entropia di una sorgente con memoria è tanto minore quanto

maggiore è l’ordine della memoria.


Dimostrazione1
Dimostrazione

(Per semplicità, solo nel caso a memoria di ordine 1)

Inoltre,


Lezione 5

Lezione 5

24 ottobre 2002


Codici ottimali con probabilit note a priori
Codici ottimali con probabilità note a priori

Osservazione: in un codice C ottimale,

Dimostrazione: si supponga di scambiare le due parole in questione

Siccome C è ottimale,

quindi deve essere per forza

c.v.d.


Codici ottimali con probabilit note a priori1
Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe hanno la stessa lunghezza.

Dimostrazione: se così non fosse, potrei sopprimere l’ultima

parte delle parole più lunghe senza perdere la proprietà di prefisso

e ottenendo un codice migliore (assurdo).


Codici ottimali con probabilit note a priori2
Codici ottimali con probabilità note a priori

Osservazione: in un codice istantaneo C ottimale a base r,

le r parole più lunghe sono associate agli r simboli sorgente

meno probabili e differiscono solo per l’ultimo simbolo.

Dimostrazione: per

0

0

0

0

1

1

0

0

1

1

0

1

1


Codice di fano
Codice di Fano

  • Ordinare i simboli sorgente in ordine di probabilità decrescente

  • Dividere al meglio i simboli in r gruppi equiprobabili

  • Assegnare a ciascun gruppo uno degli r simboli come prefisso

  • Ripetere la divisione per gruppi in modo ricorsivo finché possibile


Esempio
Esempio

probabilità

codice

simbolo

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9


Codice di shannon
Codice di Shannon

Calcolare le probabilità cumulative

Scriverle in notazione r-aria

Il numero di simboli per parola di codice è dato da

cioè


Esempio1
Esempio

simbolo

probabilità

prob. Cum.

lunghezza

codice

2

2

3

3

4

4

5

5

5

5

00

01

100

101

1100

1101

11100

11101

11110

11111

0

1

2

3

4

5

6

7

8

9

1/4

1/4

1/8

1/8

1/16

1/16

1/32

1/32

1/32

1/32

0

1/4

1/2

5/8

3/4

13/16

7/8

29/32

15/16

31/32


Codice di huffman
Codice di Huffman

  • Ordinare i simboli sorgente per probabilità decrescente

  • Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo

  • Ripetere il raggruppamento finché possibile

  • Restano al massimo r simboli o gruppi di simboli

  • Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso

  • Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata


Esempio2

0

1

0

1

0

1

0

1

0

1

Esempio

simbolo

probabilità

codice

0

1

2

3

4

5

0.4

0.3

0.1

0.1

0.06

0.04

0.4

0.3

0.1

0.1

0.1

0.4

0.3

0.2

0.1

0.4

0.3

0.3

0.6

0.4

1

00

011

0100

01010

01011



Codice alfabetico o di gilbert moore
Codice alfabetico (o di Gilbert-Moore)

Ordinare i simboli sorgente secondo qualche criterio

La lunghezza di ciascuna parola di codice è data da

cioè

Determinare la sequenza

Rappresentare in base r

ciascuno di questi numeri

secondo la lunghezza

calcolata


Esempio3
Esempio

simbolo

probabilità

codice

0.0988

0.0945

0.0863

0.0849

0.0255

0.0684

.

.

.

5

5

5

5

7

5

.

.

.

0.0494

0.14605

0.23645

0.32245

0.37725

0.4242

.

.

.

00001

00100

00111

01010

0110000

01101

.

.

.

A

E

I

O

U

N

.

.

.



Codice aritmetico algoritmo
Codice Aritmetico: Algoritmo

s[1..n] è la stringa da codificare

c = 0;

a = 1;

for i = 1 to n do

begin

c = c +a*ProbCum(s[i]);

a = a*Prob(s[i]);

end

c (scritto in base 2) è

il codice cercato

c è il codice ricevuto

a = 1;

for i = 1 to n do

begin

s[i] = FindSymbol(c);

c = (c -ProbCum(s[i]))

/Prob(s[i]);

i = i + 1;

end

s[1..n] è la stringa cercata


Lezione 6

Lezione 6

28 ottobre 2002


Algoritmo di lempel e ziv
Algoritmo di Lempel e Ziv

1. Da sinistra a destra, scrivere ogni volta la parola più breve

mai incontrata prima, fino alla fine del testo;

2. Per ogni parola, separare il prefisso (una parola già incontrata)

dal simbolo finale;

3. Codificare ogni parola con una coppia formata dalla posizione

suo prefisso nella lista e dal simbolo finale che deve essere

aggiunto.


Esempio4
Esempio

1011010011010...

1, 0, 11, 01, 00, 110, 10, ...

(passo 1)

1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ...

(passo 2)

(0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...

(passo 3)

000 1 000 0 001 1 010 1 010 0 011 0 001 0 ...


Efficienza del codice di lempel e ziv
Efficienza del codice di Lempel e Ziv

parole in un messaggio di lunghezza n

bit necessari per codificare la posizione di un prefisso

Lunghezza della codifica di un messaggio di lunghezza n:

Efficienza del codice di Lempel-Ziv:


Teorema3
Teorema

Data una sorgente stazionaria ergodica con alfabeto X ed

entropia H(X), vale

q.c.


Diseguaglianza di lempel e ziv
Diseguaglianza di Lempel e Ziv

con

Dimostrazione:

Lungh. Cum. parole lunghe al più l


Diseguaglianza di lempel e ziv segue
Diseguaglianza di Lempel e Ziv (segue)

Poniamo:

c.v.d.

Se ne conclude che


Legge dei grandi numeri
Legge dei grandi numeri

Debole:

Forte:


Diseguaglianza di eby ev
Diseguaglianza di Čebyšev

Dimostrazione:


Messaggi pi probabili
Messaggi più probabili

tutti i messaggi di lunghezza l

Numero di occorrenze di si in w

per la legge dei grandi numeri


Teorema di shannon mcmillan
Teorema di Shannon-McMillan

Data una sorgente discreta senza memoria S di entropia H(S),

Le parole di lunghezza l ricadono in due classi:

I)

II)


Dimostrazione2
Dimostrazione

Čebyšev:

Non dipende da l.


Lezione 7

Lezione 7

31 ottobre 2002


Teorema4
Teorema

Dimostrazione:


I teorema di shannon
I° Teorema di Shannon

Sia S una sorgente discreta senza memoria di entropia H(S).

Siano messaggi di lunghezza l codificati in parole di codice di

lunghezza L in un alfabeto di codice con r simboli.

Probabilità che occorra un messaggio per cui non sia

disponibile una parola di codice.


Dimostrazione3
Dimostrazione

ovvero

Ma:

quindi

= numero di parole di codice di lunghezza L

Ogni messaggio tipico ha una parola di codice; i messaggi atipici,

che non hanno una parola di codice associata, hanno probabilità di

occorrere pari a

c.v.d.


Il canale discreto senza memoria 1
Il canale discreto senza memoria (1)

C è un dispositivo in grado di associare in ogni istante t con

probabilità P(y | x) un simbolo y dell’alfabeto di destinazione

con un simbolo x dell’alfabeto sorgente.



Esempio5
Esempio

0.571

0

0

0.286

0.143

?

0.143

0.286

1

1

0.571


Estensione di un canale
Estensione di un canale

Un canale è senza memoria sse:



Transinformazione
Transinformazione

Informazione mutua di sistema:


Capacit di canale
Capacità di canale

Dipende solo dalle caratteristiche del canale e dalla distribuzione

in ingresso. Ipotesi di canale costante.

L’informazione mutua è max quando la transinformazione è

indipendente dalla distribuzione in ingresso.


Equivocazione irrilevanza
Equivocazione, Irrilevanza

irrilevanza

equivocazione

informazione mutua


Lezione 8

Lezione 8

4 novembre 2002








Canali in cascata
Canali in cascata

CANALE 1

CANALE 2


Teorema5
Teorema

(detto “Della Elaborazione dei Dati)

L’informazione mutua non può aumentare al crescere dei

canali attraversati; semmai può diminuire.

In successive elaborazioni dei dati,

si può solo verificare una perdita d’informazione,

mai un guadagno.


Dimostrazione4
Dimostrazione

diseguaglianza

fondamentale


Probabilit di errore ed equivocazione
Probabilità di errore ed equivocazione

Sia

(matrice di canale quadrata)

Si può dimostrare che la probabilità di errore per il trasmittente

e per il ricevente è identica:


Diseguaglianza di fano
Diseguaglianza di Fano

probabilità di errore

equivocazione

dove

L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto

che sia stato commesso un errore e, in caso affermativo,

l’incertezza su quale dei restanti simboli sia stato trasmesso.




Corollario
Corollario

quando


Lezione 9

Lezione 9

7 novembre 2002


Distanza di hamming
Distanza di Hamming

Esempio:

0 0 1 0 1 1 0 0

0 0 1 0 1 0 1 0


Spazio di hamming di dimensione n
Spazio di Hamming di dimensione n

Spazio di Hamming di dimensione l

Esempi:

011

111

1

01

11

010

010

110

001

101

0

00

000

100

0000

1000

10


Ii teorema di shannon
II° Teorema di Shannon

Dato un canale discreto senza memoria di capacità C,

a) è possibile trasmettere una quantità di informazione H(X)

con probabilità d’errore piccola a piacere, a patto che

b) Se

comunque codifichiamo i messaggi, sarà


Dimostrazione di b
Dimostrazione di b)

Ipotesi:

Tesi:

Fano

Poniamo

Allora



Dimostrazione di a
Dimostrazione di a)

Ipotesi:

Tesi:

Assumiamo r = 2 senza perdita di generalità

Parole di codice di lunghezza l

messaggi

bit/simbolo

N.B.:

parole di codice delle

Usiamo solo

Costruiamo un codice “a caso” e dimostriamo che


Codice casuale
Codice “casuale”

parole di codice tra le

Estraiamo a caso

Sia

la probabilità di errore del canale (per simbolo!)

CANALE



Volume di una sfera di raggio d
Volume di una sfera di raggio d

In uno spazio di Hamming di dimensione l

numero di parole binarie di lunghezza l che differiscono

da una data parola w (centro) in al più d posizioni.


Lemma
Lemma

Dimostrazione:

i)

diseguaglianza

fondamentale

ii)

c.v.d.


Probabilit di errore per un dato codice
Probabilità di errore per un dato codice

Per il Teorema dei grandi numeri:


Probabilit media di errore
Probabilità media di errore

Parole contenute in


Conclusione della dimostrazione
Conclusione della dimostrazione

Sviluppiamo in serie di Taylor, ricordando che

Per cui:

c.v.d.



ad