Download
informatica umanistica b n.
Skip this Video
Loading SlideShow in 5 Seconds..
INFORMATICA UMANISTICA B PowerPoint Presentation
Download Presentation
INFORMATICA UMANISTICA B

INFORMATICA UMANISTICA B

149 Views Download Presentation
Download Presentation

INFORMATICA UMANISTICA B

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. INFORMATICA UMANISTICA B RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE http://www.disi.unitn.it/~poesio/Teach/IU massimo.poesio@unitn.it

  2. CONCETTI FONDAMENTALI INTRODOTTI IN QUESTA LEZIONE • Due tipi di informazione: • in forma ANALOGICA (continua) • in forma DISCRETA (o simbolica) • Per rappresentare o comunicare informazione in forma discreta occorre un CODICE • Esempi di codici: DNA, Morse • Esempi di codici digitali: • Per numeri • Per testi • Per immagini • Per suoni

  3. Informazione su computer • Un computer deve: • Fare input/output dell’informazione • Usando i dispositivi di input/output • Memorizzare l’informazione • Usando la memoria principale/secondaria • Elaborare l’informazione • Usando il processore

  4. Informazione su computer codifica Mondo esterno rappresentazione digitale informazione decodifica Computer: memorizzazione, elaborazione

  5. PROBLEMA DELLA RAPPRESENTAZIONE DELL’INFORMAZIONE SU COMPUTER SVILUPPARE CODICI CHE PERMETTANO DI RAPPRESENTARE INFORMAZIONE DI TIPO DISCRETO IN MODO EFFICIENTE SU UN SUPPORTO FISICO RAPPRESENTARE INFORMAZIONE DI TIPO ANALOGICO CON CODICI DISCRETI

  6. RAPPRESENTAZIONE ANALOGICA E DISCRETA • Rappresentazione ANALOGICA: una serie di distinzioni CONTINUE • Immagini, suoni, numeri reali • Rappresentazione DISCRETA: ogni elemento chiaramente distinto dagli altri

  7. INFORMAZIONE IN FORMA ANALOGICA

  8. INFORMAZIONE IN FORMA DISCRETA

  9. RAPPRESENTAZIONE DELL’INFORMAZIONE E COMUNICAZIONE L’IDEA DI SVILUPPARE CODICI PER RAPPRESENTARE INFORMAZIONE NON E’ SORTA CON I COMPUTER, MA PER FACILITARE LA COMUNICAZIONE TRA ESSERI UMANI

  10. UN ESEMPIO DI CODICE: LA SCRITTURA (IDEOGRAFICA O DISCRETA) • Le prime forme di scrittura furono tutte essenzialmente ideografiche • La scrittura fonetica alfabetica appare, sempre in area mediorientale, intorno al 1500 a. C • Ma furono solamente i Greci che, introducendo anche i segni per le vocali, ne completarono l’evoluzione intorno all’ottavo secolo a. C.

  11. IL CODICE MORSE -- --- ·-· ··· · (space) -·-· --- -·· · M O R S E (space) C O D E

  12. IL CODICE MORSE • Un codice TERNARIO (-, ., spazio) • Codici per i caratteri scelti in modo che i caratteri piu’ frequenti hanno codici piu’ brevi

  13. UN ESEMPIO DI CODICE DISCRETO VISIVO

  14. CODICI IN NATURA • In realta’, i codici sono apparsi ben prima degli esseri umani. In natura si trovano molti esempi di codici, i piu’ famosi dei quali sono • Il DNA • Il repertorio di fonemi di un linguaggio

  15. UN CODICE FONDAMENTALE: Il DNA

  16. CODICE = CONVENZIONE • Il fatto che una certa immagine od un certo simbolo rappresentino informazione non è sufficiente perche’ possano essere usati per la comunicazione • Un CODICE (o LINGUAGGIO) è un insieme di SEGNI (e di regole) che mittente e destinatario devono CONDIVIDERE affinché il primo sia in grado di formulare messaggi ed il secondo di comprenderli • Ogni codice e’ quindi una forma di CONVENZIONE sociale stabilita tra individui (cfr. David Lewis)

  17. CODICI E STATI INFORMATIVI I CODICI VENGONO PROGETTATI SULLA BASE DELLE DISTINZIONI CHE DEVONO ESSERE RAPPRESENTATE OGNI TIPO DISTINTO DI INFORMAZIONE: STAT0

  18. UN ESEMPIO MINIMO DI INFORMAZIONE: L’INTERRUTTORE • Due stati distinti: • Acceso • Spento • L’informazione sullo stato dell’interruttore corrisponde dunque alla scelta fra due sole alternative • Possiamo rappresentarla usando una sola cifra con due valori: 0 od 1

  19. UNA DEFINIZIONE SEMI-FORMALE DI CODICE (O LINGUAGGIO) • una serie di nozioni sugli stati del mondo che possono essere il contenuto di ciascun atto comunicativo; chiamiamo questi elementi significati • una serie di simboli astratti che possono essere connessi in modo convenzionale a significati; essi possono essere sottoposti a regole che ne governino la combinazione e la successione e che stabiliscano quali sequenze considerare e quali scartare; chiamiamo queste regole sintassi • una serie di eventi fisici dotati di caratteristiche distintive, che possono essere adoperati per rappresentare le unità astratte della serie (b) • una regola che associa in modo sistematico le unità della serie (a) a quelle della serie (b), ed in seconda istanza le unità della serie (b) a quelle della serie (c)

  20. CODICI PER NUMERI • Nel caso dei numeri, la necessita’ di sviluppare un codice limitato non e’ motivata solo da facilita’ di memorizzazione, ma anche dalla necessita’ di usarli per MANIPOLAZIONI SIMBOLICHE

  21. DUE CODICI PER I NUMERI • Codice ROMANO: • VII + IV = XI • Codice DECIMALE: • 7 + 4 = 11 • Differenza fondamentale: il codice decimale e’ un codice POSIZIONALE • 7 = 7x100 • 70 = 7x101 + 0 x100 • I codici posizionali rendono le operazioni aritmetiche molto piu’ semplici

  22. Rappresentazione digitale dei numeri • Il codice decimale, benche’ molto comodo, non e’ il codice MINIMO • Per rappresentare informazione sui computer, codice minimo essenziale perche’ occorreva poter rappresentare ogni simbolo diverso in modo FISICO (= con circuiti elettrici) • Il minimo numero di simboli diversi necessari per rappresentare tutti i numeri e’ il codice BINARIO: 0, 1

  23. I due simboli (0 e 1) possono essere rappresentati da: Due stati di polarizzazione di una sostanza magnetizzabile Due stati di carica elettrica di una sostanza L’invenzione dei tubi catodici prima, e dei transistor poi, ci ha fornito gli strumenti per rappresentare due stati di carica elettrica Perché la rappresentazione binaria?

  24. Rappresentazione digitale = rappresentazione binaria • L’entità minima di informazione che possiamo trovare all’interno di un elaboratore prende il nome di bit • Binary digit – cifra binaria • Un bit può assumere due valori • Rappresentazione binaria • Solo due simboli (0 e 1)

  25. USO DELLA RAPPRESENTAZIONE BINARIA: DUE STATI • Due possibilità • Acceso • Spento • L’informazione sullo stato dell’interruttore corrisponde dunque alla scelta fra due sole alternative • Possiamo rappresentarla usando un solo bit

  26. NUMERO MAGGIORE DI STATI • Per poter rappresentare un numero maggiore di informazione si usano sequenze di bit • Per esempio, per rappresentare quattro informazioni diverse possiamo utilizzare due bit che ci permettono di ottenere quattro configurazione distinte 00 01 10 11 Il processo secondo cui si fa corrispondere ad un’informazione una sequenze di bit prende il nome codifica dell’informazione

  27. QUATTRO STATI DIVERSI • Esempio: un esame può avere quattro possibili esiti: ottimo, discreto, sufficiente, insufficiente • Codifica (due bit): • ottimo con 00 • discreto con 01 • sufficiente con 10 • insufficiente con 11

  28. OTTO STATI • Esempio: otto colori: nero, rosso, blu, giallo, verde, viola, grigio, arancione • Codifico (tre bit): • nero con 000 • rossocon 001 • blu con 010 • giallo con 011 • verde con 100 • viola con 101 • grigio con 110 • arancione con 111

  29. I numeri in rappresentazione binaria • Il principio e’ lo stesso del codice decimale, ma con due soli simboli • 8 = 8x100 = 1x23 + 0x22+ 0x21+ 0x20 = 1000 • 70 = 7x101 + 0 x100 = 64 + 4 + 2 = 1 x26 + 0x25+ 0x24+ 0x23+ 1x22+ 1x21+ 0x20 = 1000110 • 178 = 1x102 + 7x101 + 8x100 = 128 + 32 + 8 + 2 = 1x27+ 0x26 + 1x25+ 0x24+ 1x23+ 0x22+ 1x21+ 0x20 = 10101010

  30. BYTE • Esiste una particolare aggregazione di bit che è costituita da 8 bit (28 = 256 informazioni) e prende il nome di byte • Di solito si usano i multipli del byte

  31. RAPPRESENTAZIONE DI INTERI SU COMPUTER • Tipicamente 4 byte (= 32 bit) oppure 8 byte (= 64 bit)

  32. RAPPRESENTAZIONE DIGITALE DI ALTRI TIPI DI INFORMAZIONE • Per molti anni, l’unico tipo di informazione rappresentata sui computers informazione di tipo numerico • Ma di fatto, si scopri’ presto che lo stesso trucco poteva venire usato per I TESTI

  33. La codifica digitale del testo che tipo di rappresentazione digitale del testo?

  34. La codifica digitale del testoIl testo e la sua organizzazione intestazione capitolo titolo testo

  35. La codifica digitale del testo Il testo come sequenza di caratteri Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura.

  36. La codifica di alto livello: il punto di partenza Il testo codificato al livello zero si presenta come un manoscritto in scriptio continua

  37. La codifica digitale del testo • Due livelli di codifica del testo digitale • codifica di basso livello (codifica di livello 0) • riguarda la rappresentazione binaria della sequenza ordinata dei caratteri • codifica di alto livello • arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali • organizzazione del testo in strutture macrotestuali • articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo

  38. Come sono rappresentati i caratteri nel computer? • Repertorio di caratteri • un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.) • i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) • “a”, “a”, “a”, “a” sono tutti lo stesso carattere “a” • la stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latino e “A” cirillico e “A” greco) • Set di carattere (codice) • una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi • a ogni carattere è assegnato un codice numerico (punto di codice o code position) • Codifica di carattere • algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes)

  39. Il codice ASCII • Primo standard per l’assegnazione di codici a caratteri (dal 1963) • set di caratteri riconosciuto da tutti i computer • conosciuto come “ASCII Standard” o ISO-646 • Codifica • 7 bits • ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits • in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) • 7 bits = 27 punti di codice = 128 caratteri rappresentati • Sufficiente per rappresentare l’inglese • mancano i caratteri accentati, umlauts, ecc. per rappresentare altri alfabeti occidentali

  40. ASCII (binario)

  41. CODIFICA DI PAROLE IN ASCII • Parole sono sequenze di caratteri • Codifica della parole cane 01100011 01100001 01101110 01100101 c a n e • Il problema inverso: data una sequenza di bit, il testo che essa codifica può essere ottenuto nel modo seguente: • si divide la sequenza in gruppi di otto bit (byte) • si determina il carattere corrispondente ad ogni byte

  42. LIMITI DELL’ASCII E SOLUZIONI • ASCII sviluppato per lingue anglosassoni, quindi non contiene codici per molti caratteri di lingue come l’Italiano • Molti codici furono proposti che utilizzano l’8 bit • ISO ha cercato di proporre standards • Esempio: ISO-LATIN-1

  43. Il set di caratteri ISO-Latin-1 • ISO-Latin-1 (ISO-8859-1 oASCII esteso) • unica estensione standard di ASCII • 1 byte = 8 bits = 28 punti di codice = 256 caratteri rappresentati • sufficiente per lingue europee occidentali (italiano, francese, ecc.) ASCII Standard Caratteri di controllo 0-32 128-159

  44. UNICODE • www.unicode.org • Proposta di codice a 16 bit che può quindi essere usato per codificare 216 simboli diversi (cioe’ tutti gli alfabeti, incluso cinese ed arabo) • Esempio: Medieval Unicode Font • gandalf.aksis.uib.no/mufi • Problemi: • Non tutti gli editori lo trattano • Dimensioni dei file raddoppiano • Soluzioni: UTF

  45. Dall’analogico al digitale OK, nel caso dei testi è tutto chiaro… …ma come la mettiamo con immagini, suoni, filmati? Cominciamo dalle immagini… Di nuovo, il trucco e’ convertire l’informazione nelle immagini in forma binaria!!

  46. Codifica delle immagini Suddividiamo l’immagine mediante una griglia formata da righe orizzontali e verticali a distanza costante

  47. Codifica delle immagini • Ogni quadratino derivante da tale suddivisione prende il nome di pixel (picture element) e può essere codificato in binario secondo la seguente convenzione: • Il simbolo “0” viene utilizzato per la codifica di un pixel corrispondente ad un quadratino in cui il bianco è predominante • Il simbolo “1” viene utilizzato per la codifica di un pixel corrispondente ad un quadratino in cui il nero è predominante

  48. Codifica delle immagini

  49. Codifica delle immagini Poiché una sequenza di bit è lineare, è necessario definire convenzioni per ordinare la griglia dei pixel in una sequenza. Assumiamo che i pixel siano ordinati dal basso verso l’alto e da sinistra verso destra 0000000000 0011111000 0011100000 0001000000

  50. Codifica delle immagini Non sempre il cortorno della figura coincide con le linee della griglia. Quella che si ottiene nella codifica è un’approssimazione della figura originaria Se riconvertiamo la sequenza di stringhe 0000000000 0011111000 0011100000 0001000000 in immagine otteniamo