Fisica Computazionale applicata alle Macromolecole

Fisica Computazionale applicata alle Macromolecole Pier Luigi Martelli Università di Bologna gigi@biocomp.unibo.it 051 2094005 338 3991609 Reti Neurali per la predizione proteica

Secondary structure EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE........... 3D structure Nt Ct Secondary structure Covalent structure TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Outer Membrane Inner Membrane -barrel -helices Bilayer Bacteriorhodopsin (Halobacterium salinarum) Porin (Rhodobacter capsulatus) Topology of membrane proteins Topography position of Trans Membrane Segments along the sequence ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK

Metodi di prima generazione • Scale di propensità • Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture • Considerazioni fisico-chimiche • Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura

Struttura secondaria: Metodo di Chou-Fasman Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura Esempio: ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAAL hhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27 P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40 Se amminoacido e struttura sono indipendenti: P(A,h) = P(A)P(h) Il rapporto P(A,h)/P(A)P(h) è detto propensità

Struttura secondaria: Metodo di Chou-Fasman Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura

Struttura secondaria: Metodo di Chou-Fasman Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

Struttura secondaria: Metodo di Chou-Fasman http://www.expasy.ch/cgi-bin/protscale.pl

Eliche transmembrana: Scala di Kyte e Doolittle Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidi Si considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200

Metodi di seconda generazione GOR La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13) Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale

Struttura secondaria: Metodo GOR Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica) Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti

Un metodo più efficiente: Reti neurali Nuovo paradigma di calcolo: analogia con sistema nervoso 1) Il sistema nervoso è costituito da neuroni 2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica) 3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)

Computazione complessa: Bande di Mach Osservate le giunzioni tra le bande

Computazione complessa: Bande di Mach

Computazione complessa: Bande di Mach Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996) Osservate le giunzioni tra le zone bianche e nere

Computazione complessa: Bande di Mach Stimolo  Percetto Intensità Intensità

Semplice modello di neurone retinico Potenziale (mV) Luce Potenziale Intensità incidente (fotoni/s) Trasduttore lineare Luce-Potenziale

Trasmissione senza connessioni Fotoni/s mV

Trasmissione con inibizione laterale 160 - 0.1 160-0.1 40=140 160 - 0.1 160-0.1 160=128 40 - 0.1 40-0.1 40=32 mV 40 - 0.1 160-0.1 40=20 Fotoni/s Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni

Computazione complessa: Bande di Mach Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse. La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi

Modello di neurone di McCulloch e Pitts w: pesi sinaptici q: soglia di attivazione Unità computazionale che compie la somma pesata dei segnali in ingresso (attivazione,a) trasforma l’attivazione secondo una funzione di trasferimento g (output, z)

Funzioni di trasferimento Si usano solitamente funzioni NON lineari

Reti neurali Wij Pesi sinaptici Neurone i La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -q -q

Reti neurali: topologie La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione. Percettroni 2 soli strati: Input e Output wij

Reti neurali e operatori logici 1 OR w13 = 0.5 w23 = 0.5 q3 = 0.25 3 2 a3 = 0.25 z3 = 1 a3 = 0.75 z3 = 1 a3 = 0.25 z3 = 1 a3 = -0.25 z3 = 0

Reti neurali e operatori logici 1 AND w13 = 0.5 w23 = 0.5 q3 = 0.75 3 2 a3 = -0.25 z3 = 0 a3 = 0.25 z3 = 1 a3 = -0.25 z3 = 0 a3 = -0.75 z3 = 0

Reti neurali e operatori logici 1 NOT (1) w13 = -0.5 w23 = 0.1 q3 = -0.25 3 2 a3 = -0.25 z3 = 0 a3 = -0.15 z3 = 0 a3 = 0.35 z3 = 1 a3 = 0.25 z3 = 1

Separabilità lineare Data la funzione di trasferimento, il neurone risulta attivato se: Lo spazio degli input è così diviso in due zone da un iperpiano. Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente

Separabilità lineare AND OR NOT(1) Non linearmente separabile: un percettrone non può risolverlo XOR

Reti neurali feed-forward a più strati Neuroni organizzati a strati Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo w1ij w2ij

w111 1 1 (q11) XOR w111 = 0.7 w121 = 0.7 q11 = 0. 5 w112 = 0.3 w122 = 0.3 q12 = 0. 5 w211 = 0.7 w221 = -0.7 q12 = 0. 5 w211 w112 1 (q21) w121 2 2 (q12) w221 w122 x1 = 0 x2 = 0 a11 = -0.5 z11 = 0 a12 = -0.5 z12 = 0 a21 = -0.5 z12 = 0

w111 1 1 (q11) XOR w111 = 0.7 w121 = 0.7 q11 = 0. 5 w112 = 0.3 w122 = 0.3 q12 = 0. 5 w211 = 0.7 w221 = -0.7 q12 = 0. 5 w211 w112 1 (q21) w121 2 2 (q12) w221 w122 x1 = 1 x2 = 0 a11 = 0.2 z11 = 1 a12 = -0.2 z12 = 0 a21 = 0.2 z12 = 1

w111 1 1 (q11) XOR w111 = 0.7 w121 = 0.7 q11 = 0. 5 w112 = 0.3 w122 = 0.3 q12 = 0. 5 w211 = 0.7 w221 = -0.7 q12 = 0. 5 w211 w112 1 (q21) w121 2 2 (q12) w221 w122 x1 = 0 x2 = 1 a11 = 0.2 z11 = 1 a12 = -0.2 z12 = 0 a21 = 0.2 z12 = 1

w111 1 1 (q11) XOR w111 = 0.7 w121 = 0.7 q11 = 0. 5 w112 = 0.3 w122 = 0.3 q12 = 0. 5 w211 = 0.7 w221 = -0.7 q12 = 0. 5 w211 w112 1 (q21) w121 2 2 (q12) w221 w122 x1 = 1 x2 = 1 a11 = 0.9 z11 = 1 a12 = 0.1 z12 = 1 a21 = -0.5 z12 = 0

Gli strati nascosti mappano l’input in una rappresentazione linearmente separabile Input Output Attivazione desiderato neuroni hidden 0 0 0 0 0 1 0 1 0 1 0 1 1 0 1 1 1 0 1 1

Reti neurali supervisionate Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione. Funzione di errore Dato un insieme di esempi xiil cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output) Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale

Addestramento di un percettrone Consideriamo come funzione di trasferimento una funzione derivabile: Dati dei parametri iniziali w: x1 z1 x2 z2

Addestramento di un percettrone Così: Scarto: d ij Si possono aggiornare i pesi per “discesa del gradiente”  è detta velocità di apprendimento: troppo piccola: addestramento lento troppo grande: si superano i minimi Convergenza:

Esempio: OR 1 w13 = 0 w23 = 0 q3 = 0 =2 3 2 Esempi presentati x1 x2 d a z E Dw13 Dw13 Dq3 1 0 1 0 0.5 0.125 -0.125 0 0.125 0 1 1 0 0.5 0.125 0 -0.125 0.125 0 0 0 0 0.5 0.125 0 0 -0.125 0 0 0 0 0.5 0.125 0 0 -0.125 0.5 -0.125 -0.125 0

Esempio: OR, Step 1 1 w13 = 0.25 w23 = 0.25 q3 = 0 =2 3 2 Esempi presentati x1 x2 d a z E Dw13 Dw13 Dq3 1 0 1 0.25 0.56 0.096 -0.108 0 0.108 0 1 1 0.25 0.56 0.096 0 -0.108 0.108 0 0 0 0 0.5 0.125 0 0 -0.125 0 0 0 0 0.5 0.125 0 0 -0.125 0.442 -0.108 -0.108 -0.035

Esempio: OR, Step 2 1 w13 = 0.466 w23 = 0.466 q3 = 0.069 =2 3 2 Esempi presentati x1 x2 d a z E Dw13 Dw13 Dq3 1 0 1 0.397 0.598 0.081 -0.097 0 0.097 0 1 1 0.397 0.598 0.081 0 -0.097 0.097 0 0 0 -0.069 0.483 0.117 0 0 -0.121 0 0 0 -0.069 0.483 0.117 0 0 -0.121 0.395 -0.097 -0.097 -0.048

Esempio: OR, Step 3 1 w13 = 0.659 w23 = 0.659 q3 = 0.164 =2 3 2 Esempi presentati x1 x2 d a z E Dw13 Dw13 Dq3 1 0 1 0.494 0.621 0.072 -0.089 0 0.089 0 1 1 0.494 0.621 0.072 0 -0.089 0.089 0 0 0 -0.164 0.459 0.105 0 0 -0.114 0 0 0 -0.164 0.459 0.105 0 0 -0.114 0.354 -0.089 -0.089 -0.05 Continua Train

Generalizzazione 1 w13 = 0.659 w23 = 0.659 q3 = 0.164 =2 3 2 Per l’esempio non presentato (1,1)? x1 x2 d a z 1 1 1 1.153 0.760 La rete ha generalizzato le regole apprese ad un esempio ignoto

Addestramento per reti a più strati:Back-propagation w1ij w2ij Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i

Addestramento per reti a più strati:Back-propagation w1ij w2ij Per lo strato 1: Definiscod 1,ij

Addestramento per reti a più strati:Back-propagation Output Input passo feed-forward per calcolare zl ; calcolo dello scarto sugli output,  2l; calcolo dello scarto sui neuroni nascosti, j1; calcolo delle derivate dell’errore rispetto ai pesi

Cosa apprende una rete? Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x) Training, a convergenza: Derivata funzionale Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento

Tools out of machine learning approaches Prediction New sequence Prediction Neural Networks can learn the mapping from sequence to secondary structure Training Data Base Subset TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN General rules EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE Known mapping

Reti neurali per la predizione della struttura secondaria a b C Output Input M P I L K QK P I H Y H P N H G E A K G A 0 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 0 D 0 0 0 0 0 0 0 0 0 E 0 0 0 0 0 0 0 0 0 F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1 I 0 0 1 0 0 0 0 0 0 K 1 0 0 0 0 0 0 0 0 L 0 0 0 0 0 0 0 0 0 M 0 0 0 0 0 0 0 0 0 N 0 0 0 0 0 0 0 1 0 P 0 1 0 0 0 0 1 0 0 Q 0 0 0 0 0 0 0 0 0 R 0 0 0 0 0 0 0 0 0 S 0 0 0 0 0 0 0 0 0 T 0 0 0 0 0 0 0 0 0 V 0 0 0 0 0 0 0 0 0 W 0 0 0 0 0 0 0 0 0 Y 0 0 0 0 1 0 0 0 0 Tipicamente: Input 17-23 residui Hidden neuron :4-15

Fisica Computazionale applicata alle Macromolecole