slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
ALLINEAMENTI MULTIPLI PowerPoint Presentation
Download Presentation
ALLINEAMENTI MULTIPLI

Loading in 2 Seconds...

play fullscreen
1 / 58

ALLINEAMENTI MULTIPLI - PowerPoint PPT Presentation


  • 136 Views
  • Uploaded on

ALLINEAMENTI MULTIPLI. L’allineamento multiplo è un’ipotesi di omologia posizionale tra basi o aminoacidi Tutti i residui presenti nella stessa colonna di un multi-allineamento sono evolutivamente correlati

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'ALLINEAMENTI MULTIPLI' - orsin


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

ALLINEAMENTI MULTIPLI

L’allineamento multiplo è un’ipotesi di omologia posizionale tra basi o aminoacidi

Tutti i residui presenti nella stessa colonna di un multi-allineamento sono evolutivamente correlati

No applicabili algoritmi di allineamento globale esatto (cresce esponenzialmente con il numero di sequenze da allineare)

Teoricamente sarebbe possibile applicare l’algoritmo di allineamento globale, ma in pratica non lo è perché richiede tempi di esecuzione troppo lunghi

METODI APPROSSIMATI

Es. ALLINEAMENTO PROGRESSIVO (implementato in Clustal W)

slide2

ALLINEAMENTO PROGRESSIVO

  • Basato su costruzione di una successione di allineamenti a coppie
  • Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 e s2 e si allineano; questo allineamento resta fissato nei passi successivi
  • Si sceglie una terza sequenza s3 e si allinea al precedente allineamento, e così via
  • Prevedono che coppie di sequenze che presentano un maggior grado di similarità tra loro siano allineate per prime (giustificato dal fatto che coppie di seq + simili avranno maggiore probabilità di essere derivate + recentemente da un antenato comune e il loro allineamento fornisce informazioni più affidabili - le posizioni dei gap in seq maggiormente correlate sono tipicamente + accurate rispetto a quelle relative a seq meno simili, per cui i gap degli allineamenti iniziali vanno preservati durante l’allineamento progressivo)
slide3

A

B

D

C

ClustalW

  • Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze:
  • Quest’albero verrà utilizzato per guidare l’allineamento progressivo.
  • Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D all’allineamento AB e infine verrà allineata la sequenza C all’allineamento ABD.
allineamento con clustalw
Allineamento con ClustalW
  • La presenza di un simbolo * in fondo ad una colonna indica un match del 100%.
  • Il simbolo :indica un’alta similarità (>75%).
  • Il simbolo.indica una media similarità (50%-75%).
slide6

Quando le sequenze da allineare non sono molto divergenti (similarità >50% per le proteine) ClustalWdàunarispostaottimale

  • In casocontrariosononecessariaggiustamenti (correzionemanualedell’allineamento)
  • Unavoltache 2 o + seqsiano state allineate in un cluster, questoallineamento è fissato e non puòpiùesseremodificatonellefasi successive dell’allineamentoprogressivo.
  • Problemidiminimo locale: se in unaqualunquefasevieneintrodotto un erroresipropagheràsullefasi successive
  • Affidabilità del multiallineamentodipendedanchedal set diseq considerate – es. Se si include unaseq non realmenteomologaallineamentoprodottorisultaalteratodainserzionemolti gap addizionali (controlloseq input per rimuoverequelle “spurie”)
ricerca di similarita in banche dati

Una sequenza “da sola” non e’ informativa, è utile poterla confontare alle sequenze note nei database perche’ possano essere formulate delle ipotesi sulla sue relazioni evolutive con sequenze simili o sulla sua funzione.

  • Metodi di ricerca di similarità in banca dati: programmi che permettono di fare lo “screening” di una banca dati usando una sequenza “sonda”/”esca” (detta query) come input ( le sequenze nel DB sono chiamate subject)
  • Devono essere veloci, selettivi e sensibili
  • Si basano su metodi euristici
  • Utilizzano allineamentilocali per confrontare
  • le sequenze
  • Algoritmo “Euristico” = in matematica e informatica un particolare tipo di algoritmo la cui soluzione non è la soluzione ottima per quel dato problema ma una soluzione approssimativamente molto vicina a quella ottima con tempi di calcolo ragionevoli.
RICERCA DI SIMILARITA’ IN BANCHE DATI
slide8

Se due sequenze hanno una identità > 30%:

  • Sonostrutturalmente e disolitoanchefunzionalmentesimili
  • Hanno un antenato in comune
  • Se due sequenze hanno una identità > 20-30%:
  • Hanno un ripiegamentoglobale simile
  • Se due sequenze hanno una similarità pari al 15-20%:
  • Siamo al limitedella“twilight zone”
  • Se esisteunaverarelazionedisolitositrovano “icebergs” (regionidisimilaritàlocali)
valutazione significativit dei match identificati
Valutazione significatività dei match identificati

Quanto il match (query vs seq x del DB) identificato dagli allineamenti locali di BLAST è significativo?

Tanto più il loro allineamento è diverso da uno generato casualmente tra sequenze di lunghezza paragonabile

Sequenze che danno un allineamento casuale:

–Sequenze non omologhe

–Sequenze rimescolate(“shuffled”)

–Sequenze generate casualmente

–Sequenze a bassa complessità (con regioni ricche di amminoacidi dello stesso tipo altamente ripetuti)

N.B. Blast permette di mascherare le regioni di sequenza a bassa complessitè

e value
E-value

E-value= expectation value, numero atteso di sequenze che danno per caso il punteggio opt

Indica quanto e’ probabile che si trovi il punteggio S per caso in una distribuzione di Poisson con valore medio Mcasuale

NB IN BLAST il punteggio OPT puo’ essere convertito in scala logaritmica al punteggio cosidetto BIT

Indicazioni: opt/bit elevati, Evalue prossimo a 0

blast
BLAST

blastp cerca in database di sequenze proteiche usando come query sequenze proteiche

blastn cerca in un database di sequenze nucleotidiche usando come query sequenze nucleotidiche

blastx cerca in un database di sequenze proteiche partendo da una sequenza query nucleotidica che viene tradotta in tutti i frame

tblastn cerca in un database di sequenze nucleotidiche partendo da una sequenza query proteica – le seq subject del database sono tradotte in sequenze proteiche in tutti i frame

PSI-Blast ricerca iterativa con PSI-Blast usando ad ogni iterazione una sequenza consenso derivata dall’allineamento tra la seq query le le subject dell’interazione precedente

ricerca di pattern e motivi funzionali
Ricerca di pattern e motivi funzionali

Uno dei primi scopi della biologia computazionale consiste nel rispondere alla domanda: data una nuova sequenza, cosa si può dire sulla funzione (o funzioni) in essa codificata?

Se la ricerca per similarità non fornisce risposte si devono usare altri strumenti: la ricerca di pattern e motivi funzionali

La pattern recognitionè un’area di ricerca dell’informatica e della fisica applicata con ricadute in campi quali l’intelligenza artificiale, la linguistica computazionale, le scienze cognitive, la statistica matematica, ecc.

Studia l’organizzazione e il disegno di sistemi che riconoscano motivi e regolarità nei dati a disposizione

slide15

Un motivo (pattern) è un insieme di caratteri (nucleotidi o aminoacidi), non necessariamente contigui, associati spesso ad una precisa struttura o funzione

La loro esistenza dipende dal fatto che l’evoluzione ha prodotto pochi modi per realizzare una determinata funzione

I motivi possono essere codificati in:

Espressioni regolari – motivi di tipo deterministico

Forme più complesse (allineamenti, profili, HMM, matrici, consensus)

Motivo ideale  può essere sempre ed univocamente associato ad una precisa struttura o funzione

Motivo reale  si trova in sequenze che non presentano la funzione (falsi positivi) o è assente in sequenze funzionalmente correlate al motivo (falsi negativi)

Leespressioni regolarisonoformuleche si possono usare per definire pattern testualiutilizzandolelettere dell’alfabeto e meta-caratteri

<$+*[{( )?.

ai quali è associata una determinata funzione

banche dati di motivi
BANCHE DATI DI MOTIVI
  • All’interno di un singolo motivo l’informazione può essere ridotta a una SEQUENZA CONSENSO che non deve essere necessariamente stringente: PATTERN;
  • Se ci si riferisce a un gruppo di motivi conservati non contigui nella sequenza: FINGERPRINT oppure BLOCCHI;
  • Se invece non si identificano regioni locali di similarità tra proteine di una stessa famiglia ma l’informazione viene dal considerare la similarità lungo l’intero allineamento si ha un PROFILO
motivi e motivi
MOTIVI…E MOTIVI

PATTERN

FINGERPRINT O BLOCCHI

PROFILO : possibilità di ricavare una sequenza consenso per tutto l’allineamento

XXXXhhhhXXXbbxxaaxxNGG(X)5-8SWXX…

slide18

Ricerca di pattern e motivi funzionali in sequenze proteiche

Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia di proteine, appare evidente che alcune regioni sono più conservate  regioni importanti per la funzione o la struttura

Le regioni più conservate sono in genere quelle più importanti per la funzione

Dalle regioni costanti e variabili di un multi-allineamento di proteine omologhe derivare un pattern che serva a distinguerle, cioè si può identificare un motivo che possa servire alla caratterizzazione funzionale delle proteine che lo contengono.

Esistono diversi programmi per l’individuazione di motivi:

PROSITE

BLOCKS, PRINTS (fingerprint= insieme di piu’ motivi)

E di domini:

PFAM, SMART

slide19

Le proteine ed i domini proteici che appartengono ad una particolare famiglia generalmente condividono attributi funzionali e derivano da un “antenato” comune.

Dallo studio di sequenze risulta evidente che alcune regioni si conservano meglio di altre nel corso dell’evoluzione. Queste regioni in genere sono importanti per il mantenimento della struttura tridimensionale o per la funzione di una proteina.

Analizzando le proprietà che vengono mantenute costanti e quelle che invece variano è possibile ottenere una “signature” per ogni famiglia proteica o dominio che consente di distinguere i suoi membri dalle altre proteine non correlate.

banche dati di motivi1
BANCHE DATI DI MOTIVI
  • All’interno di un singolo motivo l’informazione può essere ridotta a una SEQUENZA CONSENSO che non deve essere necessariamente stringente: PATTERN PROSITE
  • Se ci si riferisce a un gruppo di motivi conservati non contigui nella sequenza: FINGERPRINT oppure BLOCCHIBLOCKSPRINTS
  • Se invece non si identificano regioni locali di similarità tra proteine di una stessa famiglia ma l’informazione viene dal considerare la similarità lungo l’intero allineamento si ha un PROFILO
  • Prosite Pfam
slide21

Come si può studiare la struttura di una proteina

i metodi sperimentali classici per la risoluzione della struttura tridimensionale di una proteina sono:

  • la cristallografia a raggi X
  • la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR)
slide22

Cristallografia a raggi X

La proteina, cristallizzata, viene bombardata con un raggio di fotoni collimati ad alta energia. I fotoni vengono diffratti in modo differente a seconda del tipo di atomo che colpiscono. I raggi diffratti vengono raccolti formando un quadro(pattern) di diffrazione

Il pattern di diffrazione (immagine nel dominio delle frequenze) viene usato per ricostruire le coordinate dei singoli atomi che compongono la macromolecola e quindi la sua struttura 3D.

I raggi X interagiscono quasi esclusivamente con gli elettroni presenti nella materia e non con i nuclei.

Una struttura ai raggi X è quindi un’immagine della densità elettronica dell’oggetto in analisi

slide23

Cristallografia a raggi X

Risoluzione ottenibile su piccole molecole organiche  1Å. In generale proteine cristallizate hanno grado di organizzazione più basso (2-3.5Å) che limitano la risoluzione. Questo è dovuto anche all’alta idratazione dei cristalli (40-60% di acqua).

Una tale risoluzione non è sufficiente per rivelare la posizione dei singoli atomi, ma è sufficiente per tracciare l’andamento e la disposizione dello scheletro covalente della proteina. Occorre quindi conoscere la struttura primaria in modo da adattare la mappa della densità elettronica alla sequanza aminoacidica.

  • Limiti del metodo:
  • Cristallizzare proteine e` difficile
  • Ricavare la struttura dal pattern di diffrazione e` computazionalmente complesso
  • L’informazione che si ottiene e` statica, mentre la conforomazione di una proteina in soluzione varia nel tempo
slide24

Spettroscopia a risonanza magnetica nucleare(NMR)

Permette di ottenere informazioni sulla struttura di una molecola attraverso l’interazione con una radiazione elettromagnetica. Si basa sullo stesso principio della risonanza magnetica usata in medicina, usa onde radio.

I nuclei atomici (elettricamente carichi) ruotano, con una velocità angolare quantizzata, creando un momento magnetico 

Immersi in un campo magnetico omogeneo esterno i momenti magnetici si allineano (“traballando” a causa del rumore termico).

I nuceli vengono irraggiati da onde radio (RF), l’effetto è di “disallineare”  (tanto da farli “ribaltare”).

È possibile rilevare quando i momenti magnetici dei vari nuclei (che continuano a ruotare) si inclinano completamente sul piano perpendicolare rispetto al campo magnetico applicatograzie ad un'antenna che capta le onde radio che questi generano ed è collocata perpendicolarmente al campo magnetico applicato.

slide25

Spettroscopia a risonanza magnetica nucleare(NMR)

Ogni nucleo mostra le sue caratteristiche perchè ruota a velocità differente a seconda della sua posizione nella molecola e all'ambiente che gli atomi vicini gli fanno sentire e quindi risuona a frequenze radio diverse.

Nuclei diversi risuonano a frequenze diverse. Ciò significa innanzitutto che un atomo di carbonio deve essere colpito da un'onda radio con frequenza diversa da quella necessaria ad un atomo di idrogeno per “ribaltarsi” di 90°, ma anche che atomi simili in ambienti diversi, come un atomo di idrogeno legato ad un atomo di ossigeno ed un atomo di idrogeno legato ad un atomo di carbonio si ribaltano a frequenze diverse. Questo è dovuto alla “schermatura” degli elettroni vicini

  • Caratteristiche:
  • studio delle proteine in soluzione (non occorre cristallizzarle)
  • alta risoluzione temporale (millisecondi)
  • informazioni sulle distanze interprotoniche non precise
  • la “proton signature” limita il metodo allanalsi di molecole “piccole” (<30 KD  <250 residui)
slide26

Il file PDB

http://www.pdb.org

Esempio: Deossiemoglobina umana (1a3n)

HEADER OXYGEN TRANSPORT 22-JAN-98 1A3N TITLE DEOXY HUMAN HEMOGLOBIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: HEMOGLOBIN; COMPND 3 CHAIN: A, B, C, D; COMPND 4 BIOLOGICAL_UNIT: ALPHA-BETA-ALPHA-BETA TETRAMER SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS; SOURCE 3 ORGANISM_COMMON: HUMAN; SOURCE 4 TISSUE: BLOOD; SOURCE 5 CELL: RED CELL KEYWDS OXYGEN TRANSPORT, HEME, RESPIRATORY PROTEIN, ERYTHROCYTE EXPDTA X-RAY DIFFRACTION AUTHOR J.TAME,B.VALLONE REVDAT 1 29-APR-98 1A3N 0 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 1.8 ANGSTROMS. REMARK 3

[…]

slide27

[…]

REMARK 900 RELATED ENTRIES REMARK 900 THIS ENTRY IS RELATED TO PDB ENTRY 1A3O. REMARK 999 REMARK 999 SEQUENCE REMARK 999 1A3N B SWS P02023 1 - 1 NOT IN ATOMS LIST REMARK 999 1A3N D SWS P02023 1 - 1 NOT IN ATOMS LIST DBREF 1A3N A 1 141 SWS P01922 HBA_HUMAN 1 141 DBREF 1A3N B 2 146 SWS P02023 HBB_HUMAN 2 146 DBREF 1A3N C 1 141 SWS P01922 HBA_HUMAN 1 141 DBREF 1A3N D 2 146 SWS P02023 HBB_HUMAN 2 146 SEQRES 1 A 141 VAL LEU SER PRO ALA ASP LYS THR ASN VAL LYS ALA ALA SEQRES 2 A 141 TRP GLY LYS VAL GLY ALA HIS ALA GLY GLU TYR GLY ALA SEQRES 3 A 141 GLU ALA LEU GLU ARG MET PHE LEU SER PHE PRO THR THR SEQRES 4 A 141 LYS THR TYR PHE PRO HIS PHE ASP LEU SER HIS GLY SER SEQRES 5 A 141 ALA GLN VAL LYS GLY HIS GLY LYS LYS VAL ALA ASP ALA SEQRES 6 A 141 LEU THR ASN ALA VAL ALA HIS VAL ASP ASP MET PRO ASN SEQRES 7 A 141 ALA LEU SER ALA LEU SER ASP LEU HIS ALA HIS LYS LEU SEQRES 8 A 141 ARG VAL ASP PRO VAL ASN PHE LYS LEU LEU SER HIS CYS SEQRES 9 A 141 LEU LEU VAL THR LEU ALA ALA HIS LEU PRO ALA GLU PHE SEQRES 10 A 141 THR PRO ALA VAL HIS ALA SER LEU ASP LYS PHE LEU ALA SEQRES 11 A 141 SER VAL SER THR VAL LEU THR SER LYS TYR ARG

[…]

slide28

tipo di

atomo

tipo di

amminoacido

coordinate

X

Y

Z

ATOM 1 N VAL A 1 10.720 19.523 6.163 1.00 21.36 N ATOM 2 CA VAL A 1 10.228 20.761 6.807 1.00 24.26 C ATOM 3 C VAL A 1 8.705 20.714 6.878 1.00 18.62 C ATOM 4 O VAL A 1 8.164 20.005 6.015 1.00 19.87 O ATOM 5 CB VAL A 1 10.602 22.000 5.966 1.00 27.19 C ATOM 6 CG1 VAL A 1 10.307 23.296 6.700 1.00 31.86 C ATOM 7 CG2 VAL A 1 12.065 21.951 5.544 1.00 31.74 C ATOM 8 N LEU A 2 8.091 21.453 7.775 1.00 16.19 N ATOM 9 CA LEU A 2 6.624 21.451 7.763 1.00 17.31 C ATOM 10 C LEU A 2 6.176 22.578 6.821 1.00 18.55 C ATOM 11 O LEU A 2 6.567 23.730 7.022 1.00 18.72 O ATOM 12 CB LEU A 2 6.020 21.707 9.129 1.00 18.34 C ATOM 13 CG LEU A 2 6.386 20.649 10.198 1.00 17.39 C ATOM 14 CD1 LEU A 2 5.998 21.119 11.577 1.00 17.99 C ATOM 15 CD2 LEU A 2 5.730 19.337 9.795 1.00 16.96 C ATOM 16 N SER A 3 5.380 22.237 5.852 1.00 15.02 N ATOM 17 CA SER A 3 4.831 23.237 4.928 1.00 16.59 C ATOM 18 C SER A 3 3.725 24.027 5.568 1.00 14.84 C ATOM 19 O SER A 3 3.095 23.717 6.591 1.00 14.40 O ATOM 20 CB SER A 3 4.308 22.429 3.727 1.00 16.47 C ATOM 21 OG SER A 3 3.076 21.786 3.991 1.00 14.91 O

slide29

nome

HEADER TRANSCRIPTION REGULATION 25-AUG-94 1RPO 1RPO 2

COMPND ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON 1RPO 3

COMPND 2 EITHER SIDE OF ASP 31 (INS (A-D31-A)) 1RPO 4

SOURCE (ESCHERICHIA COLI) 1RPO 5

AUTHOR M.VLASSI,M.KOKKINIDIS 1RPO 6

REVDAT 2 15-MAY-95 1RPOA 1 REMARK 1RPOA 1

REVDAT 1 14-FEB-95 1RPO 0 1RPO 7

JRNL AUTH M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON, 1RPO 8

JRNL AUTH 2 H.J.HINZ,M.KOKKINIDIS 1RPO 9

JRNL TITL RESTORED HEPTAD PATTERN CONTINUITY DOES NOT 1RPO 10

JRNL TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE 1RPO 11

JRNL REF NAT.STRUCT.BIOL. V. 1 706 1994 1RPO 12

JRNL REFN ASTM NSBIEW US ISSN 1072-8368 2024 1RPO 13

REMARK 1 1RPO 14

REMARK 1 REFERENCE 1 1RPO 15

REMARK 1 AUTH M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI, 1RPO 16

REMARK 1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ 1RPO 17

REMARK 1 TITL CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL 1RPO 18

REMARK 1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS 1RPO 19

REMARK 1 REF PROTEINS.STRUCT.,FUNCT., V. 16 214 1993 1RPOA 2

REMARK 1 REF 2 GENET. 1RPOA 3

REMARK 1 REFN ASTM PSFGEY US ISSN 0887-3585 0867 1RPO 22

REMARK 2 1RPO 29

REMARK 2 RESOLUTION. 1.4 ANGSTROMS. 1RPO 30

REMARK 1RPO 94

REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY 1RPO 95

SEQRES 1 65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG 1RPO 96

SEQRES 2 65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU 1RPO 97

SEQRES 3 65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE 1RPO 98

SEQRES 4 65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG 1RPO 99

SEQRES 5 65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU 1RPO 100

ATOM 1 N MET 1 1.132 3.053 2.801 1.00 25.53 1RPO 115

ATOM 2 CA MET 1 2.398 3.546 2.283 1.00 27.85 1RPO 116

ATOM 3 C MET 1 3.091 2.466 1.442 1.00 21.34 1RPO 117

ATOM 4 O MET 1 2.642 1.298 1.451 1.00 19.29 1RPO 118

ATOM 5 CB MET 1 3.281 3.936 3.463 1.00 23.96 1RPO 119

ATOM 6 CG MET 1 3.718 2.760 4.291 1.00 27.52 1RPO 120

ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121

ATOM 7 SD MET 1 4.491 3.371 5.797 1.00 26.29 1RPO 121

ATOM 8 CE MET 1 3.039 3.650 6.762 1.00 25.19 1RPO 122

ATOM 9 N THR 2 4.142 2.833 0.689 1.00 13.20 1RPO 123

ATOM 10 CA THR 2 4.851 1.806 -0.025 1.00 12.76 1RPO 124

ATOM 11 C THR 2 5.719 1.011 0.950 1.00 14.35 1RPO 125

composto

organismo

autore

referenze

risoluzione

sequenza

residuo 1

residuo 2

num.atomo

tipo atomo

tipo residuo

x

y

z

num. residuo

numero residuo

slide30

TECNICHE COMPUTAZIONALI

L’utilizzo complementare di tecniche di tipo sperimentale e di tipo computazionale è l’approccio ottimale per lo studio dei sistemi e dei processi biologici.

Questa considerazione riguarda in particolare gli aspetti strutturali del problema, ovvero la conoscenza della conformazione, o variazione di conformazione, di una molecola biologica in relazione alla sua attività.

slide32
==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=9-JUN-2003 .

REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 .

HEADER ONCOGENE PROTEIN 06-JUN-91 121P .

COMPND H-RAS P21 PROTEIN COMPLEX WITH GUANOSINE-5'-[B,G-METHYLENE] .

SOURCE HUMAN (HOMO SAPIENS) CELLULAR HARVEY-RAS GENE TRUNCATED AND .

AUTHOR U.KRENGEL,K.SCHEFFZEK,A.SCHERER,W.KABSCH,A.WITTINGHOFER, .

166 1 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) .

8891.0 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) .

125 75.3 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES .

24 14.5 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES .

11 6.6 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES .

...

# RESIDUE AA STRUCTURE BP1 BP2 ACC N-H-->O O-->H-N N-H-->O O-->H-N TCO KAPPA ALPHA PHI PSI X-CA Y-CA Z-CA

1 1 M 0 0 120 0, 0.0 2,-0.2 0, 0.0 50,-0.1 0.000 360.0 360.0 360.0 162.6 -5.9 31.9 -6.7

2 2 T E -a 51 0A 61 48,-0.6 50,-2.7 2,-0.0 2,-0.4 -0.425 360.0-161.0 -62.9 132.1 -4.8 28.9 -4.8

3 3 E E -a 52 0A 93 48,-0.2 2,-0.5 -2,-0.2 50,-0.2 -0.926 5.2-154.9-114.4 142.4 -4.5 29.7 -1.1

4 4 Y E -a 53 0A 13 48,-3.1 50,-2.7 -2,-0.4 2,-0.9 -0.984 7.3-150.5-117.8 122.8 -2.5 27.5 1.3

5 5 K E -a 54 0A 36 -2,-0.5 71,-2.8 48,-0.2 72,-1.4 -0.818 23.2-177.6 -97.0 104.1 -3.6 27.6 5.0

6 6 L E -ab 55 77A 2 48,-2.4 50,-2.6 -2,-0.9 2,-0.4 -0.807 12.1-159.7-105.8 146.7 -0.5 27.0 7.0

7 7 V E -ab 56 78A 0 70,-2.0 72,-2.6 -2,-0.3 2,-0.6 -0.989 5.7-152.9-130.1 130.4 -0.3 26.7 10.8

8 8 V E +ab 57 79A 0 48,-2.6 50,-1.3 -2,-0.4 2,-0.3 -0.917 27.0 167.6-104.2 120.7 2.9 27.2 12.9

9 9 V E + b 0 80A 0 70,-2.5 72,-2.7 -2,-0.6 2,-0.2 -0.859 11.3 110.3-132.1 163.3 2.8 25.2 16.2

10 10 G - 0 0 1 -2,-0.3 72,-0.1 49,-0.3 3,-0.1 -0.769 62.0 -48.8 147.6 166.5 5.3 24.3 18.9

11 11 A S > S- 0 0 9 70,-0.5 3,-1.5 78,-0.3 5,-0.3 -0.035 72.5 -71.3 -59.5 161.3 6.2 25.0 22.5

12 12 G T 3 S+ 0 0 56 48,-0.4 -1,-0.2 1,-0.2 77,-0.1 -0.287 113.6 9.3 -60.7 128.1 6.6 28.4 24.1

13 13 G T 3 S+ 0 0 61 -3,-0.1 -1,-0.2 -2,-0.1 -2,-0.1 0.488 83.8 121.2 85.1 7.0 9.6 30.4 23.1

14 14 V S < S- 0 0 3 -3,-1.5 70,-0.1 67,-0.1 -2,-0.1 0.656 88.2 -99.1 -77.9 -14.8 10.9 28.2 20.2

15 15 G S > S+ 0 0 15 -4,-0.2 4,-2.6 66,-0.1 5,-0.2 0.637 71.8 144.9 108.4 24.2 10.6 31.0 17.7

16 16 K H > S+ 0 0 12 -5,-0.3 4,-2.1 1,-0.2 5,-0.1 0.933 81.4 41.1 -53.7 -50.0 7.3 30.4 15.9

17 17 S H > S+ 0 0 26 2,-0.2 4,-2.9 1,-0.2 5,-0.3 0.902 112.1 53.2 -68.2 -44.3 6.7 34.1 15.6

18 18 A H > S+ 0 0 11 1,-0.2 4,-2.0 2,-0.2 -1,-0.2 0.893 109.8 50.4 -61.1 -37.2 10.2 35.1 14.7

19 19 L H X S+ 0 0 1 -4,-2.6 4,-2.3 2,-0.2 -2,-0.2 0.969 112.7 45.5 -62.7 -52.2 10.2 32.5 11.9

20 20 T H X S+ 0 0 0 -4,-2.1 4,-3.2 -5,-0.2 5,-0.3 0.898 113.5 48.0 -60.1 -41.3 6.9 33.8 10.5

Struttura secondaria

Accessibilità

Angoli torsionali

(f,y)

Numerazione residui

slide33

Metodi di predizione della struttura secondaria delle proteine:

Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB.

PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti neurali.

PSIPRED utilizza un sistema di due reti neurali.

JPRED3 fa un consensus di vari metodi

metodo di chou fasman 1974
Metodo di Chou & Fasman (1974)
  • Gli aminoacidi hanno propensioni diverse a formare strutture a-eliche e filamenti b.
    • La prolina p.es. interrompe le a-eliche
  • L‘approccio si può migliorare considerando il contesto locale dei residui.
  • I risultati migliorano notevolmente utilizzando metodi di machine learning.
slide35

Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria.

slide36

I migliori programmi di predizione della struttura secondaria sono stati sviluppati utilizzando metodi di apprendimento automatico (machine learning methods)

i metodi di apprendimento automatico più utilizzati in bioinformatica sono le reti neurali e gli Hidden Markov Models (HMM)

una caratteristica peculiare delle reti neurali è che sono in grado di apprendere, in un tentativo di simulare il comportamento del cervello umano

vengono addestrate utilizzando un opportuno insieme di dati detto training set (un insieme di a-eliche, filamenti b e elementi non-a non-b)

e possono poi venire utilizzate per riconoscere a-eliche da filamenti b e da elementi non-a non-b

slide38

Molecular Modelling

  • Target:
    • Sequenza di cui si cerca la struttura
  • Templato:
    • Sequenza con struttura nota, “stampo“ per il modello
  • Comparative o homology modeling
    • Ricerca in database
    • Modello costruito da struttura omologa
  • Fold recognition (Threading)
    • Tenta di riconoscere omologie remote
    • Approcci differenti che utilizzano struttura secondaria, profili di sequenza, funzioni energetiche specializzate, ...
diagramma di flusso della modellizzazione proteica
Diagramma di flussodella modellizzazioneproteica

Dati sperimentali

Allineamento multiplo

di sequenza

Ricerca nelle

banchedati

Assegnazione

dei domini

Predizione

del fold

No

Analisi della famiglia

del fold

E’ stato

predetto

un fold?

Allineamento della

sequenza alla struttura

No

Modello tridimensionale

della proteina

Sequenza proteica

Proteina

omologa

nella banca dati

PDB?

Predizione della

struttura secondaria

Allineamento delle

strutture secondarie

Modellizzazione

comparativa

Predizione della

struttura terziaria ab-inito

slide40

Modellizzazione comparativa

(o per similarità di sequenza)

Permette di costruire la struttura tridimensionale di una proteina

sulla base della SIMILARITÀ DI SEQUENZA con un’altra proteina

di struttura NOTA

che viene usata come STAMPO.

slide41

   Utilizza strutture note (template) di uno o più membri di una famiglia strutturale-funzionale per predire la struttura (target) di un altro membro della famiglia la cui sequenza sia nota.

Si basa sulle seguenti osservazioni:

  • le proteine appartengono ad un numero limitato di famiglie strutturali
  • proteine della stessa famiglia hanno strutture tridimensionali molto simili
homology modelling

RICERCA DEL TEMPLATO

  • Blast-FastA
  • CRITERI IDENTITA’/SIMILARITA’
  • CONOSCENZA FUNZ.-STR.-BIOCHIM.
  • OMOLOGO 3D (PDB)
  • ALLINEAMENTO

HOMOLOGY MODELLING

allineamento

GUIDA LA COSTRUZIONE DEL MODELLO

  • CORRISPONDENZA aa target  aa templato
  • ricerca ALLINEAMENTO OTTIMALE
  • CORRISPONDENZA DI aa FUNZ. IMPORTANTI
  • CORRISPONDENZA DELLA STRUTTURA SECONDARIA TRA TEMPLATO E QUERY
  • VALUTAZIONE DEI GAP  loop
  • USO TEMPLATI MULTIPLI   loc.similarità

ALLINEAMENTO

creazione del modello

Raw model

Loop modeling

Side chain placement

Refinement

  • identificazione SCR (structural conserved regions)
  • SCR  scaffold del modello

CREAZIONE DEL MODELLO

______________

______________ x-ray

SCRs

No SCRs (loops ?)

costruzione del pre modello

flexible

conserved

Costruzione del pre-modello
  • La struttura del templato viene utilizzata come “stampo“ per costruire il modello seguendo l‘allineamento.
  • Le coordinate 3D dei residui strutturalmente conservati si possono copiare direttamente.
  • Le regioni variabili della struttura (generalmente loop) non si possono copiare.
catene laterali

Raw model

Loop modeling

Side chain placement

Refinement

Catenelaterali
  • Problema: Applicando le coordinate del templato sulla sequenza del target cambiano tipo, dimensione e posizione delle catene laterali.
  • L‘RMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo)
  • Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato.
  • Esistono metodi standard per risolvere questo problema.
predizione delle catene laterali

AUSILIO DI LIBRERIE DI ROTAMERI

Contengono i possibili conformeri delle catene laterali a fronte di specifiche conformazioni del backbone

  • OTTIMIZZAZIONE ENERGETICA DELLE STRUTTURA  rimozione di clash

PREDIZIONE DELLE CATENE LATERALI

loop modeling

Raw model

Loop modeling

Side chain placement

Refinement

Loop modeling
  • Al pre-modello possono mancare interi frammenti di catena principale
    • non conservati nella famiglia proteica
    • Inserzioni
    • Delezioni
  • Descrizione del problema:
    • Si cerca un fold che colleghi il frammento N-terminale (pre-loop) con quello C-terminale (post-loop) tramite k residui
    • (f,y) sono gli unici parametri liberi

loop

post-loop

pre-loop

slide49

FOLD RECOGNITION

  • Predizione di sequenzaconpoca o nessunasimilaritàconstrutturenote.
  • Osservazione: La natura utilizzasolamenteunnumerolimitato di folddiversi
  • Idea della foldrecognition: Cerca di rappresentare la strutturaignotacondeifoldconosciuti, valutaqualepotrebbeesserequello “giusto“.
fold recognition

FOLD RECOGNITION

per casi predittivi in cui non ci sono omologie chiare con proteine a struttura nota (TWILIGHT ZONE)

metodi che rinunciano alla corretta formulazione del campo di forze agenti su una struttura proteica

detti meanforcepotentialche individuano un potenziale che cattura la natura risultante delle forze in gioco

devo disporre di uno strumento quantitativo per misurare fitness di una sequenza con una struttura per poter assegnare alla seq in questione le strutture note e valutare la bontà dell’assegnazione

queste funzioni di pseudo-potenziale sono costruite sulla base di un’analisi statistica di strutture note

slide52

Il metodo abinitio(predizione de novo)

  • Il problema della predizione di struttura abinitio
  • “data una sequenza proteica, calcolarne la struttura”
  • Il calcolo è basato sulla stima dell’energia relativa alla posizione di ciascun atomo nello spazio e la sua relazione chimico-fisica con gli altri atomi
  • Il minimo globale della funzione energia definisce la struttura 3D
  • È teoricamente possibile
  • Essendo la biofisica complessa ed incompleta è nella pratica ancora molto difficile

ROSETTA, sviluppata dal gruppo di David Baker

slide53

Ab initio methods for modelling

NO allineamento

NO struttura nota

Costruireunafunzioneempiricachedescriva le forzediinterazione

Esplorare lo spazioconformazionale per massimizzarefunzionedimerito

slide54

“Modello di folding” su cui si basa Rosetta:

“ Localsequencefragmentsrapidlyalternate between different possible local structures, and folding occurs when the conformations and relative orientationsofthese local segments combine to form low energy global structures”

E’ UN PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE

slide55

PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE:

  • Ricerca della geometria di minima energia
  • Richiede:
  • Metodo di ricerca/generazione delle conformazioni
  • Funzione “energetica” (funzione di scoring energetico) per valutarle
  • Nei metodi ab-initio:
  • Rappresentazioni ridotte delle proteine/ Potenziali detti knowledge-based semplificati/ ricerca di conformazionale coarse-grain
slide56

M

A

A

G

Y

A

Y

G

V

L

S

-

A

T

G

F

D

-

-

V

I

D

-

A

S

G

F

E

-

-

V

V

E

-

A

K

A

Y

L

-

-

V

L

S

Building by homology (Homology modelling)

Allineamento con proteine a struttura nota

Modello strutturale

slide57

M

A

A

G

Y

A

V

L

S

Fold recognition (Threading)

Sequenza:

+

Motivi strutturali noti

Modello strutturale

slide58

M

A

A

G

Y

A

V

L

S

Ab initio

Sequenza

Modello strutturale