1 / 29

COSA CHIEDERE A UNA BANCA DATI?

COSA CHIEDERE A UNA BANCA DATI?. TRE LIVELLI DI INTERROGAZIONE. Ricerca di informazioni. Confronto tra sequenze. Predizione. CONFRONTARE Ci sono sequenze simili alla proteina che ho clonato? Come posso allineare i membri di una famiglia proteica?

hagop
Download Presentation

COSA CHIEDERE A UNA BANCA DATI?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. COSA CHIEDERE A UNA BANCA DATI? TRE LIVELLI DI INTERROGAZIONE • Ricerca di informazioni Confronto tra sequenze Predizione

  2. CONFRONTARE • Ci sono sequenze simili alla proteina che ho clonato? • Come posso allineare i membri di una famiglia proteica? • Come posso valutare la similarità tra due sequenze?

  3. A che serve confrontare due sequenze? Trovare la relazione evolutiva Predire la struttura e la funzione di una nuova proteina basandosi sulla similarità con una proteina nota

  4. Le proteine si sono differenziate nel corso dell’evoluzione Sequenze che hanno un origine comune hanno simile funzione in organismi diversi Evoluzione delle catene globiniche

  5. Due proteine che discendono da un progenitore comune si dicono omologhe. Due proteine omologhe hanno sequenze simili. La similarità tra due (o più) sequenze può essere misurata per dedurne la loro relazione evolutiva cioè l’omologia. Qual è la similarità tra due sequenze omologhe? Come si confrontano due sequenze?

  6. Qualche regola pratica Se due sequenze di almeno 100 residui hanno 25% di amminoacidi identici (o il 70% di nucleotidi) si possono definireomologhe Al di sotto del 25% ci si trova nella twilight zonedove non è possibile assegnare con sicurezza un’omologia

  7. Come si confrontano due sequenze? Per valutare la similarità di due sequenze dobbiamo allinearle cioè scrivere le due sequenze orizzontalmente in modo da far corrispondere il maggior numero possibile di lettere. Esempio seq1: ATTKIQQW seq2: TTKIQQW ATTKIQQW | | | | | | | TTKIQQW 7 lettere corrispondenti ATTKIQQW | | TTKIQQW 2 lettere corrispondenti Qual è l’allineamento migliore?

  8. seq1: ATTKIQQWseq2: TTKIQQW ATTKIQQW | | TTKIQQW 2 lettere corrispondenti ATT-KIQQW | ||||| TTKIQQW 6 lettere corrispondenti 1 gap Qual è l’allineamento migliore?

  9. Bisogna stabilire dei criteri per assegnare un punteggio all’allineamento cioè per scegliere l’allineamento migliore tra tutti i possibili. L’inserimento di gap migliora l’allineamento ma introduce elementi che non esistono nella sequenza quindi occorre associargli una penalizzazione (gap penalty)

  10. Un modo efficace di allineare due sequenze Metodo delle matrici a punti - DotPlot GAP

  11. Dare un punteggio solo agli AA identici è limitante perché: • Gli amminoacidi possono essere classificati in base alle loro proprietà chimico-fisiche e strutturali • Alcune mutazioni sono più frequenti • Per es. amminoacidi con codoni simili hanno una maggiore probabilità di essere sostituiti • La selezione naturale tende a favorire le sostituzioni in cui sono mantenute le proprietà degli amminoacidi • – Per es. La sostituzione di un aspartato con un glutammato è favorita perchè conserva la carica negativa

  12. Per tenere conto di queste osservazioni sono state create le Matrici di sostituzione che assegnano un punteggio ad ogni coppia di residui amminoacidici Poichè gli amminoacidi sono 20, le matrici di sostituzione contengono 20x20= 400 valori quindi sono quadrate e simmetriche.

  13. I punteggi vengono assegnati con metodi statistici derivandoli dall’osservazione delle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche note I valori vengono calcolati partendo da coppie di sequenze MOLTO SIMILI tra loro e poi estrapolati per sequenze più divergenti Questo è l’approccio usato nelle matrici PAM create da M. Dayhoff

  14. La matrice pam250 Il numero associato alla matrice (250) indica la distanza filogenetica delle sequenze

  15. Se si vuole confrontare la sequenza contro una banca dati allora la sequenza in input (query sequence) verrà allineata con ognuna delle sequenze della banca dati stessa. Gli allineamenti ad alto punteggio individuano le sequenze evolutivamente correlate alla sequenza query.

  16. MATRICI PAM (point accepted mutations) • sostituzioniaminoacidiche osservate su 71 gruppi di proteine omologhe con similarità >85% • serie di matrici che riportano un punteggio per ogni coppia di aa corrispondente a diversi valori di distanza evolutiva • restrittive • MATRICI BLOSUM (block substitution matrices) • blocchi di multiallineamenti corrispondenti alle regioni conservate di famiglie proteiche • piu’ accurate

  17. Occorre avere degli algoritmi veloci per realizzare tutti questi confronti in un tempo ragionevole BLASTeFASTA Entrambi effettuano ricerche di similarità in banche dati nucleotidiche o proteiche

  18. Esempio di output di BLAST Probabilità che nel match considerato, la similarità sia casuale Punteggio assegnato al match: più è alto e più la similarità è reale. Score: significatività statistica dell’allineamento. Al di sotto di 50 il match è inaffidabile Evalue: stima la probabilità che il match non sia casuale. Al di sopra di 10-4 ci si può trovare nella twilight zone.

  19. BLAST Score basso e E-value alto indicano che il match ha un’alta probabilità di essere casuale

  20. BLAST: allineamento locale

  21. Allineamento multiplo Gli amminoacidi responsabili di una funzione in una proteina tendono ad essere conservati in tutte le sequenze omologhe. Se si considerano solo due sequenze è difficile stabilire quanto un residuo sia conservato e quindi importante Occorre confrontare un numero maggiore di sequenze tra loro

  22. Sequenze omologhe a CFTR CFTR DDSLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMMIMGELEPSEGKIK MALK VRLVDVWKVFGEVTAVREMSLEVKDGEFMILLGPSGCGKTTTLRMIAGLEEPSRGQIY Choline transport ATP-binding protein opuBA LTLENVSKTYKGGKKAVNNVNLKIAKGEFICFIGPSGCGKTTTMKMINRLIEPSAGKIF Ferric cations import ATP-binding protein fbpC LTVKNLNKFFNEQQVLHDISFSLQRGEILFLLGSSGCGKTTLLRAIAGFEQPSNGEIW Proteases secretion ATP-binding protein PRTD LSVEQVSLRTAQGNTRLQNIHFSLQAGETLVILGASGSGKSSLARLLVGAQSPTQGKVR

  23. Allineamento multiplo di una porzione della sequenza di CFTR I residui che formano un tratto caratteristico delle proteine che legano ATP detto ANSA ATP sono evidenziati nel rettangolo verde

  24. Un programma molto usato per gli allineamenti multipli è CLUSTALW Che utilizza una procedura di allineamento progressivo http://www2.ebi.ac.uk/clustalw/

  25. allineamento multiplo progressivo costruire tutti i possibili allineamenti a coppie costruire un albero guida basato sui punteggi di similarità tra tutte le coppie scegliere la coppia di sequenze (o cluster) con il più alto grado di similarità e raggrupparle in un cluster fissandone l’allineamento NO il multiallineamento comprende tutte le sequenze? SI Allineamento multiplo N sequenze omologhe Da:G.Valle et al. Introduzione alla Bioinformatica Zanichelli

  26. Allineamento multiplo • Permette di estrarre Informazioni su: • domini di una struttura proteica • Localizzazione dei residui importanti per • una specifica funzione • residui interni o esposti al solvente • Utile per la predizione di struttura secondaria e terziaria

More Related