Fisica computazionale applicata alle macromolecole
Download
1 / 77

Fisica Computazionale applicata alle Macromolecole - PowerPoint PPT Presentation


  • 102 Views
  • Uploaded on

Fisica Computazionale applicata alle Macromolecole. Pier Luigi Martelli Università di Bologna [email protected] 051 2094005 338 3991609. Reti Neurali per la predizione proteica. Secondary structure EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE. 3D structure. Nt. Ct. Secondary structure.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Fisica Computazionale applicata alle Macromolecole' - ownah


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Fisica computazionale applicata alle macromolecole
Fisica Computazionale applicata alle Macromolecole

Pier Luigi Martelli

Università di Bologna

[email protected]

051 2094005

338 3991609

Reti Neurali per la predizione proteica


Secondary structure

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

3D structure

Nt

Ct

Secondary structure

Covalent structure

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN


Outer Membrane

Inner Membrane

-barrel

-helices

Bilayer

Bacteriorhodopsin

(Halobacterium salinarum)

Porin

(Rhodobacter capsulatus)

Topology of membrane proteins

Topography

position of Trans Membrane Segments along the sequence

ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK ALALMLCMLTYRHKELKLKLKK


Metodi di prima generazione

  • Scale di propensità

  • Statistiche sulla presenza dei 20 amminoacidi nelle differenti strutture

  • Considerazioni fisico-chimiche

  • Ad ogni tipo di amminoacido viene attribuito un valore di propensità ad assumere una certa struttura


Struttura secondaria: Metodo di Chou-Fasman

Dato un insieme di strutture note, si conta quante volte ognuno degli amminoacidi è presente in una data struttura e si determina il grado di indipendenza tra l’amminoacido e la struttura

Esempio:

ALAKSLAKPSDTLAKSDFREKWEWLKLLKALACCKLSAAL

hhhhhhhhccccccccccccchhhhhhhhhhhhhhhhhhh

N(A,h) = 7, N(A,c) =1, N=40, N(A)=8,N(h)=27

P(A,h) = 7/40, P(A) = 8/40, P(h) = 27/40

Se amminoacido e struttura sono indipendenti:

P(A,h) = P(A)P(h)

Il rapporto P(A,h)/P(A)P(h) è detto propensità


Struttura secondaria: Metodo di Chou-Fasman

Dato un insieme AMPIO di esempi, si costruisce una scala di propensità per ogni residuo e ogni struttura


Struttura secondaria: Metodo di Chou-Fasman

Data una nuova sequenza si graficano i valori di propensità residuo per residuo e si ricava una predizione di struttura secondaria

Q3 = 50/60 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)


Struttura secondaria: Metodo di Chou-Fasman

http://www.expasy.ch/cgi-bin/protscale.pl


Eliche transmembrana: Scala di Kyte e Doolittle

Si considera il coefficiente di partizione acqua-ottanolo dei singoli amminoacidi

Si considera la frequenza di occorrenza dei singoli amminoacidi nelle eliche transmembrana

Ala: 1.800 Arg: -4.500

Asn: -3.500 Asp: -3.500

Cys: 2.500 Gln: -3.500

Glu: -3.500 Gly: -0.400

His: -3.200 Ile: 4.500

Leu: 3.800 Lys: -3.900

Met: 1.900 Phe: 2.800

Pro: -1.600 Ser: -0.800

Thr: -0.700 Trp: -0.900

Tyr: -1.300 Val: 4.200


Metodi di seconda generazione GOR

La struttura assunta da un amminoacido non dipende solo dall’amminoacido stesso, ma anche da quelli che lo affiancano

Si possono estendere le statistiche agli amminoacidi che affiancano l’amminoacido di cui si vuol predire la struttura (tipicamente in una finestra -8 < i < 8 / -13 < i < 13)

Si ottengono dei coefficienti P(A,s,i) di contributo dell’amminoacido A, posto in posizione i rispetto al residuo centrale, alla struttura s per il residuo centrale


Struttura secondaria: Metodo GOR

Q3 = 65 % (numero di risposte corrette su un insieme di test scorrelato con l’insieme su cui si è condotta la statistica)

Le posizioni dell’intorno sono considerate scorrelate tra loro, e portano contributi indipendenti


Un metodo più efficiente: Reti neurali

Nuovo paradigma di calcolo: analogia con sistema nervoso

1) Il sistema nervoso è costituito da neuroni

2) Il segnale elettrico fluisce nel neurone in una direzione determinata (Principio di polarizzazione dinamica)

3)Non esiste continuità citoplasmatica tra le cellule; ogni cellula comunica con alcune cellule in modo specifico attraverso le sinapsi (Principio di specificità connettiva)


Computazione complessa: Bande di Mach

Osservate le giunzioni tra le bande



Computazione complessa: Bande di Mach

Da: R. Pierantoni, La trottola di Prometeo, Laterza (1996)

Osservate le giunzioni tra le zone bianche e nere


Computazione complessa: Bande di Mach

Stimolo  Percetto

Intensità

Intensità


Semplice modello di neurone retinico

Potenziale (mV)

Luce

Potenziale

Intensità incidente (fotoni/s)

Trasduttore lineare Luce-Potenziale



Trasmissione con inibizione laterale

160 - 0.1 160-0.1 40=140

160 - 0.1 160-0.1 160=128

40 - 0.1 40-0.1 40=32

mV

40 - 0.1 160-0.1 40=20

Fotoni/s

Ogni neurone inibisce i suoi vicini per il 10% del suo potenziale senza inibizioni


Computazione complessa: Bande di Mach

Molte unità di calcolo uguali, ognuna delle quali compie azioni semplici, ampiamente interconnesse possono compiere computazioni molto complesse.

La “conoscenza” risiede nella topologia delle connessioni e nella “forza” della sinapsi


Modello di neurone di McCulloch e Pitts

w: pesi sinaptici

q: soglia di attivazione

Unità computazionale che

compie la somma pesata dei segnali in ingresso (attivazione,a)

trasforma l’attivazione secondo una funzione di trasferimento g (output, z)


Funzioni di trasferimento

Si usano solitamente funzioni NON lineari


Reti neurali

Wij Pesi sinaptici

Neurone i

La soglia può essere considerata come ulteriore neurone sempre attivo e collegato con peso sinaptico pari a -q

-q


Reti neurali: topologie

La topologia delle connessioni definisce il tipo di rete. Ci occuperemo solo delle reti feed-forward in cui i neuroni sono organizzati in strati gerarchici e il segnale fluisce in una unica direzione.

Percettroni

2 soli strati: Input e Output

wij


Reti neurali e operatori logici

1

OR

w13 = 0.5 w23 = 0.5 q3 = 0.25

3

2

a3 = 0.25

z3 = 1

a3 = 0.75

z3 = 1

a3 = 0.25

z3 = 1

a3 = -0.25

z3 = 0


Reti neurali e operatori logici

1

AND

w13 = 0.5 w23 = 0.5 q3 = 0.75

3

2

a3 = -0.25

z3 = 0

a3 = 0.25

z3 = 1

a3 = -0.25

z3 = 0

a3 = -0.75

z3 = 0


Reti neurali e operatori logici

1

NOT (1)

w13 = -0.5 w23 = 0.1 q3 = -0.25

3

2

a3 = -0.25

z3 = 0

a3 = -0.15

z3 = 0

a3 = 0.35

z3 = 1

a3 = 0.25

z3 = 1


Separabilità lineare

Data la funzione di trasferimento, il neurone risulta attivato se:

Lo spazio degli input è così diviso in due zone da un iperpiano.

Se i mapping che vogliamo effettuare non sono linearmente separabili, il percettrone è insufficiente


Separabilità lineare

AND

OR

NOT(1)

Non linearmente separabile: un percettrone non può risolverlo

XOR


Reti neurali feed-forward a più strati

Neuroni organizzati a strati

Ogni strato riceve input da quello precedente e trasmette un segnale a quello successivo

w1ij

w2ij


w111

1

1

(q11)

XOR

w111 = 0.7 w121 = 0.7 q11 = 0. 5

w112 = 0.3 w122 = 0.3 q12 = 0. 5

w211 = 0.7 w221 = -0.7 q12 = 0. 5

w211

w112

1

(q21)

w121

2

2

(q12)

w221

w122

x1 = 0 x2 = 0

a11 = -0.5 z11 = 0

a12 = -0.5 z12 = 0

a21 = -0.5 z12 = 0


w111

1

1

(q11)

XOR

w111 = 0.7 w121 = 0.7 q11 = 0. 5

w112 = 0.3 w122 = 0.3 q12 = 0. 5

w211 = 0.7 w221 = -0.7 q12 = 0. 5

w211

w112

1

(q21)

w121

2

2

(q12)

w221

w122

x1 = 1 x2 = 0

a11 = 0.2 z11 = 1

a12 = -0.2 z12 = 0

a21 = 0.2 z12 = 1


w111

1

1

(q11)

XOR

w111 = 0.7 w121 = 0.7 q11 = 0. 5

w112 = 0.3 w122 = 0.3 q12 = 0. 5

w211 = 0.7 w221 = -0.7 q12 = 0. 5

w211

w112

1

(q21)

w121

2

2

(q12)

w221

w122

x1 = 0 x2 = 1

a11 = 0.2 z11 = 1

a12 = -0.2 z12 = 0

a21 = 0.2 z12 = 1


w111

1

1

(q11)

XOR

w111 = 0.7 w121 = 0.7 q11 = 0. 5

w112 = 0.3 w122 = 0.3 q12 = 0. 5

w211 = 0.7 w221 = -0.7 q12 = 0. 5

w211

w112

1

(q21)

w121

2

2

(q12)

w221

w122

x1 = 1 x2 = 1

a11 = 0.9 z11 = 1

a12 = 0.1 z12 = 1

a21 = -0.5 z12 = 0


Gli strati nascosti mappano l’input in una rappresentazione linearmente separabile

Input Output Attivazione

desiderato neuroni hidden

0 0 0 0 0

1 0 1 0 1

0 1 1 0 1

1 1 0 1 1


Reti neurali supervisionate rappresentazione linearmente separabile

Le reti neurali Feed-forward possono essere addestrate a partire da esempi di cui sia nota la soluzione.

Funzione di errore

Dato un insieme di esempi xiil cui output desiderato di sia noto, data una rete a parametri w, si può calcolare l’errore quadratico sugli output della rete z (j corre sugli output)

Addestrare la rete significa trovare i parametri w che minimizzano tale errore: algoritmi di minimizzazione iterativi che NON garantiscono il raggiungimento del minimo globale


Addestramento di un percettrone rappresentazione linearmente separabile

Consideriamo come funzione di trasferimento una funzione derivabile:

Dati dei parametri iniziali w:

x1

z1

x2

z2


Addestramento di un percettrone rappresentazione linearmente separabile

Così:

Scarto: d ij

Si possono aggiornare i pesi per “discesa del gradiente”

 è detta velocità di apprendimento:

troppo piccola: addestramento lento

troppo grande: si superano i minimi

Convergenza:


Esempio: OR rappresentazione linearmente separabile

1

w13 = 0 w23 = 0 q3 = 0 =2

3

2

Esempi presentati

x1 x2 d a z E Dw13 Dw13 Dq3

1 0 1 0 0.5 0.125 -0.125 0 0.125

0 1 1 0 0.5 0.125 0 -0.125 0.125

0 0 0 0 0.5 0.125 0 0 -0.125

0 0 0 0 0.5 0.125 0 0 -0.125

0.5 -0.125 -0.125 0


Esempio: OR, Step 1 rappresentazione linearmente separabile

1

w13 = 0.25 w23 = 0.25 q3 = 0 =2

3

2

Esempi presentati

x1 x2 d a z E Dw13 Dw13 Dq3

1 0 1 0.25 0.56 0.096 -0.108 0 0.108

0 1 1 0.25 0.56 0.096 0 -0.108 0.108

0 0 0 0 0.5 0.125 0 0 -0.125

0 0 0 0 0.5 0.125 0 0 -0.125

0.442 -0.108 -0.108 -0.035


Esempio: OR, Step 2 rappresentazione linearmente separabile

1

w13 = 0.466 w23 = 0.466 q3 = 0.069 =2

3

2

Esempi presentati

x1 x2 d a z E Dw13 Dw13 Dq3

1 0 1 0.397 0.598 0.081 -0.097 0 0.097

0 1 1 0.397 0.598 0.081 0 -0.097 0.097

0 0 0 -0.069 0.483 0.117 0 0 -0.121

0 0 0 -0.069 0.483 0.117 0 0 -0.121

0.395 -0.097 -0.097 -0.048


Esempio: OR, Step 3 rappresentazione linearmente separabile

1

w13 = 0.659 w23 = 0.659 q3 = 0.164 =2

3

2

Esempi presentati

x1 x2 d a z E Dw13 Dw13 Dq3

1 0 1 0.494 0.621 0.072 -0.089 0 0.089

0 1 1 0.494 0.621 0.072 0 -0.089 0.089

0 0 0 -0.164 0.459 0.105 0 0 -0.114

0 0 0 -0.164 0.459 0.105 0 0 -0.114

0.354 -0.089 -0.089 -0.05

Continua Train


Generalizzazione rappresentazione linearmente separabile

1

w13 = 0.659 w23 = 0.659 q3 = 0.164 =2

3

2

Per l’esempio non presentato (1,1)?

x1 x2 d a z

1 1 1 1.153 0.760

La rete ha generalizzato le regole apprese ad un esempio ignoto


Addestramento per reti a più strati:Back-propagation rappresentazione linearmente separabile

w1ij

w2ij

Per lo strato 2, valgono le formule date per il percettrone, con la sostituzione x z1,i


Addestramento per reti a più strati:Back-propagation rappresentazione linearmente separabile

w1ij

w2ij

Per lo strato 1:

Definiscod 1,ij


Addestramento per reti a più strati:Back-propagation rappresentazione linearmente separabile

Output

Input

passo feed-forward per calcolare zl ;

calcolo dello scarto sugli output,  2l;

calcolo dello scarto sui neuroni nascosti, j1;

calcolo delle derivate dell’errore rispetto ai pesi


Cosa apprende una rete? rappresentazione linearmente separabile

Consideriamo il caso limite ideale in cui la rete venga addestrata su un insieme continuo di esempi, x, ciascuno presente con probabilità P(x) e che le soluzioni desiderate t siano associate ad ognuno degli esempi con probabilità P(t | x)

Training, a convergenza:

Derivata funzionale

Lo stato di attivazione del j-esimo neurone di output è uguale alla media delle soluzioni associate all'input x nell'insieme di addestramento


Tools out of machine learning approaches rappresentazione linearmente separabile

Prediction

New sequence

Prediction

Neural Networks can learn the mapping from sequence to secondary structure

Training

Data Base Subset

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

General

rules

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE

Known mapping


Reti neurali per la predizione della struttura secondaria rappresentazione linearmente separabile

a

b

C

Output

Input

M P I L K QK P I H Y H P N H G E A K G

A 0 0 0 0 0 0 0 0 0

C 0 0 0 0 0 0 0 0 0

D 0 0 0 0 0 0 0 0 0

E 0 0 0 0 0 0 0 0 0

F 0 0 0 0 0 0 0 0 0G 0 0 0 0 0 0 0 0 0H 0 0 0 1 0 1 0 0 1

I 0 0 1 0 0 0 0 0 0

K 1 0 0 0 0 0 0 0 0

L 0 0 0 0 0 0 0 0 0

M 0 0 0 0 0 0 0 0 0

N 0 0 0 0 0 0 0 1 0

P 0 1 0 0 0 0 1 0 0

Q 0 0 0 0 0 0 0 0 0

R 0 0 0 0 0 0 0 0 0

S 0 0 0 0 0 0 0 0 0

T 0 0 0 0 0 0 0 0 0

V 0 0 0 0 0 0 0 0 0

W 0 0 0 0 0 0 0 0 0

Y 0 0 0 0 1 0 0 0 0

Tipicamente:

Input 17-23 residui

Hidden neuron :4-15


Metodi di terza generazione: l’informazione evolutiva rappresentazione linearmente separabile


The Network Architecture for Secondary Structure Prediction rappresentazione linearmente separabile

H

E

C

CCHHEHHHHCHHCCEECCEEEEHHHCC

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80

3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0

4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0

5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0

6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63

7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0

8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0

9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0

10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0

11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50

12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0

13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14

14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The First Network (Sequence to Structure)


The Network Architecture for Secondary Structure Prediction rappresentazione linearmente separabile

H

E

C

CCHHEHHHHCHHCCEECCEEEEHHHCC

SeqNo No V L I M F W Y G A P S T C H R K Q E N D

1 1 80 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

2 2 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 80

3 3 50 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 17 0 0

4 4 0 0 0 0 0 0 0 0 13 63 13 0 0 0 0 0 0 13 0 0

5 5 13 0 0 0 0 0 0 13 75 0 0 0 0 0 0 0 0 0 0 0

6 6 0 0 0 13 0 0 0 0 0 13 0 13 0 0 0 0 0 0 0 63

7 7 0 0 0 38 0 0 0 38 0 0 0 0 0 0 0 25 0 0 0 0

8 8 25 13 0 0 0 0 0 0 50 0 13 0 0 0 0 0 0 0 0 0

9 9 0 13 13 0 0 0 0 0 0 25 0 0 0 0 0 50 0 0 0 0

10 10 0 0 25 13 0 0 0 0 13 13 0 0 0 0 0 38 0 0 0 0

11 11 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 13 13 0 0 50

12 12 0 0 0 0 43 0 0 29 0 29 0 0 0 0 0 0 0 0 0 0

13 13 0 14 29 0 0 0 0 0 29 0 0 0 0 0 0 0 0 14 0 14

14 14 0 0 0 0 0 0 0 43 29 0 0 0 0 0 0 29 0 0 0 0

The Second Network (Structure to Structure)


The cross validation procedure rappresentazione linearmente separabile

Protein set

Testing set 1

Training set 1

The Performance on the Task of Secondary Structure Prediction


Combinando differenti reti: Q3 =76/78% rappresentazione linearmente separabile


Secondary Structure Prediction rappresentazione linearmente separabile

EEEE..HHHHHHHHHHHH....HHHHHHHH.EEEE...........

Dalla sequenza

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Alla struttura secondaria

E alla probabilità di corretta predizione

7997688899999988776886778999887679956889999999


SERVERS rappresentazione linearmente separabile

PredictProtein Burkhard Rost (Columbia Univ.)

http://cubic.bioc.columbia.edu/predictprotein/

PsiPRED David Jones (UCL)

http://bioinf.cs.ucl.ac.uk/psipred/

JPred Geoff Barton (Dundee Univ.)

SecPRED

http://www.biocomp.unibo.it


Segmenti Camaleonte rappresentazione linearmente separabile

……GIKSKQEALEIAARRN……

……FNPQTQEALEIAPSVGV……

Translation Initiation Factor 3

Bacillus stearothermophilus

Transcription Factor 1

Bacteriophage Spo1

1TIF

1WTUA

QEALEIA


2,576 couples rappresentazione linearmente separabile

We extract:

from a set of 822 non-homologous proteins

(174,192 residues)

2,452 5-mer chameleons

107 6-mer chameleons

16 7-mer chameleons

1 8-mer chameleon

The total number of residues in chameleons is 26,044 out of 755 protein chains (~15%)


QEALEIA rappresentazione linearmente separabile

CCCCCCC

QEALEIA

HHHHHHH

a

a

b

b

C

C

NGDQLGIKSKQEALEIAARRNLDLVLVAP

ARKGFNPQTQEALEIAPSVGVSVKPG

Prediction of the Secondary Structure of Chameleon sequences with Neural Networks


The Prediction of Chameleons with Neural Networks rappresentazione linearmente separabile


Altri predittori a reti neurali rappresentazione linearmente separabile

  • Struttura secondaria

  • Siti di iniziazione del folding

  • Topologia delle proteine di membrana

  • Stato di legame delle cisteine

  • Mappe di contatto delle proteine

  • Superfici di contatto di strutture proteiche


Predizione dello stato di legame delle cisteine rappresentazione linearmente separabile

Tryparedoxin-I from Crithidia fasciculata (1QK8)

MSGLDKYLPGIEKLRRGDGEVEVKSLAGKLVFFYFSASWCPPCRGFTPQLIEFYDKFHES KNFEVVFCTWDEEEDGFAGYFAKMPWLAVPFAQSEAVQKLSKHFNVESIPTLIGVDADSG DVVTTRARATLVKDPEGEQFPWKDAP

Free cysteines

Cys68

Disulphide bonded cysteines

Cys40

Cys43


Percettrone (con input a profilo di sequenza) rappresentazione linearmente separabile

Legata

Non Legata

NGDQLGIKSKQEALCIAARRNLDLVLVAP


Cosa è memorizzato nei pesi sinaptici? rappresentazione linearmente separabile

Residue

Hinton’s plot

bonding state

non bonding state

Residue

Position

Position


Struttura sintattica rappresentazione linearmente separabile

Begin

1

2

3

4

End

Free states

Bonded states


Un possibile cammino rappresentazione linearmente separabile

Begin

1

2

Bonding

Residue State State

C40

C43

C68

3

4

End


Un possibile cammino rappresentazione linearmente separabile

Begin

Bonding

Residue State State

C40 1 F

C43

C68

1

2

3

4

End

P(seq) = P(1 | Begin)  P(C40 | 1)  ...


Un possibile cammino rappresentazione linearmente separabile

Begin

Bonding

Residue State State

C40 1 F

C43 2 B

C68

1

2

3

4

End

P(seq) = P(1 | Begin)  P(C40 | 1)  ...

 P(2 | 1)  P(C43 | 2)  ..


Un possibile cammino rappresentazione linearmente separabile

Begin

Bonding

Residue State State

C40 1 F

C43 2 B

C68 4 B

1

2

3

4

End

P(seq) = P(1 | Begin)  P(C40 | 1)  ...

 P(2 | 1)  P(C43 | 2)  ..

 P(4 | 2)  P(C68 | 4)  ..


Un possibile cammino rappresentazione linearmente separabile

Bonding

Residue State State

C40 1 F

C43 2 B

C68 4 B

Begin

1

2

3

4

P(seq) = P(1 | Begin)  P(C40 | 1)  ...

 P(2 | 1)  P(C43 | 2)  ..

 P(4 | 2)  P(C68 | 4)  ..

 P(End | 4)

End


I 4 possibili cammini rappresentazione linearmente separabile

Bonding

Residue State State

C40 2 B

C43 4 B

C68 1 F

Bonding

Residue State State

C40 1 F

C43 1 F

C68 1 F

Bonding

Residue State State

C40 1 F

C43 2 B

C68 4 B

Bonding

Residue State State

C40 2 B

C43 3 F

C68 4 B

Begin

Begin

1

2

1

2

3

4

3

4

End

End

Begin

Begin

1

2

1

2

3

4

3

4

End

End


Sistema ibrido rappresentazione linearmente separabile

W1

W2

W3

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1)

P(B|W2), P(F|W2)

P(B|W3), P(F|W3)

Begin

Free

Cys

Bonded Cys

End

Viterbi path

Prediction of bonding state of cysteines


Predizione della Triparedoxina rappresentazione linearmente separabile

Residue

C40

C43

C68


Predizione della Triparedoxina rappresentazione linearmente separabile

NN Output NN pred

Residue BF

C40 99 1 B

C43 82 18 B

C68 61 39 B


Predizione della Triparedoxina rappresentazione linearmente separabile

NN Output NN pred HMM HMM pred

Residue BF Viterbi path

C40 99 1 B 2 B

C43 82 18 B 4 B

C68 61 39 B 1 F

Begin

1

2

3

4

End


Performance del predittore rappresentazione linearmente separabile

Neural Network

Hybrid system

B= cysteine bonding state, F=cysteine free state.

WD= whole database (969 proteins, 4136 cysteines)

RD= Reduced database, in which the chains containing only one cysteine are removed (782 proteins, 3949 cysteines).

Martelli PL, Fariselli P, Malaguti L, Casadio R. -Prediction of the disulfide bonding state of cysteines in proteins with hidden neural networks- Protein Eng. 15:951-953 (2002)


ad