1 / 20

Informatica e Bioinformatica – A. A. 2013-2014

Banche Dati proteiche. Un altro grande database è UniProt , The Universal Protein Resource ( http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche , e le annotazione delle stesse, ottenute grazie a: determinazione diretta della sequenza proteica

glyn
Download Presentation

Informatica e Bioinformatica – A. A. 2013-2014

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Banche Dati proteiche • Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute grazie a: • determinazione diretta della sequenza proteica • traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la funzione di gene codificante la proteina Uniprot è un consorzio che nasce dalla collaborazione tra:EuropeanBioinformaticsInstitute (EBI); SIB SwissInstitute of Bioinformatics; Protein Information Resource (PIR). UniProt è una risorsa onnicomprensiva che in realtà raduna diversi database, tracui fondamentale è UniProtKB (Protein knowledgebase) Informatica e Bioinformatica – A. A. 2013-2014

  2. Swiss-Prot(http://web.expasy.org/docs/swiss-prot_guideline.html)Swiss-Prot(http://web.expasy.org/docs/swiss-prot_guideline.html) Il punto di forza di questo database è l’elevato livellodi annotazione effettuatadai suoi curatori. Informatica e Bioinformatica – A. A. 2013-2014

  3. Query disequenza in UniProt Siamo interessati a conoscere la sequenza proteica codificata dalla lactatedehydrogenase A Informatica e Bioinformatica – A. A. 2013-2014

  4. Anche in questo casopossiamo ottenere lasequenza proteica E molte altre informazionisulla struttura secondaria, terziaria (via PDB), sulle varianti conosciute e sulla funzione della proteina ricercata Informatica e Bioinformatica – A. A. 2013-2014

  5. I database proteici secondari Contengono il risultato di analisi eseguite sulle sequenze contenute nei database primari per arricchire il dato di informazioni utili. Esempio: da Swiss-Prot sono stati ricavati i database secondari Prosite ePfam,nei quali si pone maggior rilievo alla classificazione delle famiglie e dei domini proteici. http://prosite.expasy.org/ Database of protein domains, families and functional sites as well as associated patterns and profiles to identify them http://pfam.sanger.ac.uk/ Large collection of protein families, each represented bymultiple sequence alignments and HMMs Informatica e Bioinformatica – A. A. 2013-2014

  6. Famiglie proteiche e domini • Nonostante l’elevato numero di proteine esistenti, la maggior parte di esse può venire raggruppata in un numero limitato di famiglie in base alla similarità tra le loro sequenze. • Studiando le famiglie proteiche si nota che durante l’evoluzione alcune regioni si sono meglio conservate di altre. • Analizzando le proprietà costanti e variabili di questi gruppi di sequenze simili, si può ricavare una firma per una famiglia proteica o dominio, che contraddistingue le proteine di un gruppo da altre proteinenon correlate. • I domini permettono di assegnare unanuova proteina ad una specifica famiglia proteica e così formulare ipotesi sulla sua funzione. • Proteine o domini proteici appartenenti a una particolare famiglia solitamente condividono attributi funzionali e derivano da un comune progenitore: queste considerazioni sono fondamentali per effettuare un’analisi comparativa. Informatica e Bioinformatica – A. A. 2013-2014

  7. Altro esempio: proteine (Zasp, ALP, CLP, ecc.)contenenti domini PDZ e LIM. Questi domini possono interagire e legare altre proteine Fattore di trascrizione activation domain Complesso della trascrizione DNA binding domain DNA Seq. DNA promotore Domini proteici Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali organizzate in strutture tridimensionali distinte che vengono chiamate ‘domini proteici’. Ad esempio alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con una particolare sequenza di DNA, l’altro in grado di attivare la trascrizione. Proteine formate da più di un dominio si sono probabilmente evolute per fusione digeni che contenevano tali domini: fusione genica è fattore importante nell’evoluzione. Informatica e Bioinformatica – A. A. 2013-2014

  8. Esempi: Domini LIM associati ad altri domini (Sono riportate solo alcune strutture proteiche contenenti il LIM domain) PFAM,PROSITE, ma anche SMART (http://smart.embl.de/) e InterPro (http://www.ebi.ac.uk/interpro/) sono tutti database contenenti domini funzionali delle proteine. Informatica e Bioinformatica – A. A. 2013-2014

  9. Informatica e Bioinformatica – A. A. 2013-2014

  10. Tra i 16 diversi record presentiin PROSITE che contengonoil termine ricercato troviamo ildominio PDZ (PS50106) Informatica e Bioinformatica – A. A. 2013-2014

  11. Nota: gli Hidden Markov Models sono complessi modelli statistici che dall’analisi di sequenze primarie permettono la predizione di domini proteici e strutture proteiche. Informatica e Bioinformatica – A. A. 2013-2014

  12. Esempio di ricerca in PfamRicerca dei domini presenti nella proteina ZASP: sono individuati6 record Possono essere visualizzati le principali architetture proteicheche possiedono domini PDZ Informatica e Bioinformatica – A. A. 2013-2014

  13. Possono essere visualizzati anche gli allineamenti dei domini nelle differenti proteine Informatica e Bioinformatica – A. A. 2013-2014

  14. I browser genomici UCSC genome browserUniversityof California Santa Cruz (http://genome.ucsc.edu/) • L’enorme aumento dei dati riguardanti interi genomi, in particolare quelli derivanti dai progetti di sequenziamento di vertebrati, ha richiesto lo sviluppo di veri e propri browser di genomi. • Per questo motivo presso la UCSC è stato sviluppato uno dei primi genome browser in grado di fornire una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come: geni noti, geni predetti, ESTs (expressedsequenceTAGs), mRNA, elementi regolativi, geni omologhi di altri organismi, ecc. • Successivamente i principali siti (NCBI, EBI ecc.) hanno sviluppato piattaforme sempre più complesse, in grado di integrare il maggior numero di informazioni su una certa regione in particolare del genoma umano e di numerosi altri organismi. Definizione di browser: interfaccia utente che permette di la navigazione tra oggetti, ad esempio Mozilla Web Browser. Informatica e Bioinformatica – A. A. 2013-2014

  15. http://genome.ucsc.edu/ Informatica e Bioinformatica – A. A. 2013-2014

  16. group Nota: durante il sequenziamentodi un genoma, spesso sono rilasciate versioni successive specialmente nella fase finaledel progetto: possono essere più o meno definitive.Qui si fa riferimento a varie versioni (release) del genoma umano (l’ultima è del 2009). Organismo di cui si vuole visualizzare la regione genomica Gruppo di organismidi interesse Informatica e Bioinformatica – A. A. 2013-2014

  17. Pulsanti per ingrandire o rimpicciolire l’area di interesse Pulsanti di spostamento sul genoma Posizione attualesul genoma chr: rappresentazione schematica e posizione Permette di “saltare” sulla posizione digitata sulla finestra di sinistra Informatica e Bioinformatica – A. A. 2013-2014

  18. Posizione (bp) Geni con esoni, le barre spesse, e introni, le barre sottili. Traccia dei trascritti Grado di conservazione della sequenza tra organismi diversi Informatica e Bioinformatica – A. A. 2013-2014

  19. Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo diverso o nascosti utilizzando le opzioni presenti nella parte inferiore della pagina Tipologia di traccia Ci sono varie possibilitàdi visualizzazione di ogni informazione sul genome browser. Provate ad esercitazione Informatica e Bioinformatica – A. A. 2013-2014

  20. UCSC Genome Browser: descrizione del gene scelto ….e molte altre informazioni!! Informatica e Bioinformatica – A. A. 2013-2014

More Related