1 / 32

Argomenti trattati

Argomenti trattati. Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software. Introduzione biologica. DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine.

solada
Download Presentation

Argomenti trattati

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Argomenti trattati • Struttura di un gene e alternative splicing (AS) • Definizione del problema AS e algoritmo per risolverlo • ASPic software

  2. Introduzione biologica DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine

  3. Numero geni e genomi in eucarioti Genoma in procarioti (> 9 Mb) Number of genes in prokaryotes (up to 8000)

  4. 5’ 3’ 3’ 5’ TRASCRIZIONE 5’ pre-mRNA 3’ exon 1 exon 2 exon 3 SPLICING mRNA prodotto dello splicing exon 1 exon 2 exon 3 EST Expressed Sequence Tag (cDNA) exon 1 exon 3 exon 2 Espressione di un gene DNA

  5. ATTGCGTTAACTGGACTGA mRNA EST cDNA TAACGCAATTGACCTGACT AATTGACC Trascritti e sequenze EST • Un trascritto è l’elenco delle basi (A, T, C, G) che compongono un mRNA maturo • Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )

  6. GC AT AG AC Pattern di un introne Introni canonici: 99.24 % GTAG Introni non canonici: 0.69 % 0.05 % 0.02 % ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375

  7. Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : 40000 circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO

  8. A A A I1 I1 I1 B B B A I1 B B C A A B B C D D mRNA1 A A I1 B C D C D mRNA2 B A’ C D A C D B’ Tipi di Alternative Splicing Mutually exclusive exons Splice/don’t splice Competing 5’ Exon skipping Competing 3’ A I1 D A’ A I1 B B’ B C GENOMICA B C

  9. Perché AS è importante? • AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) • AS genera numerosi trascritti a partire da un singolo gene • AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) • AS è correlato alle malattie

  10. Si ha la necessità di software tools per Problema di AS • predire le forme di splicing alternativo di un gene • analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme AS è ancora un problema aperto

  11. Ma la predizione della struttura in esoni e introni di un gene è complicata da Cosa c’è a disposizione? • errori di sequenziamento nell’EST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione • sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST Programmi veloci che producono l’allineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001) Squall (Ogasawara & Morishita, 2002)

  12. Definizioni formali • Def1 • Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni • Def2 • Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn • Def3 • Fattorizzazione di un EST Scompatibile con GE S=s1 s2 … sk t.c. per 1  i1 < i2 < … < ik  n si abbia: • st= fit per t=2, 3, …, k-1 • s1 è un suffisso di fi1 e sk è un prefisso di fik • Def1 • Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni • Def2 • Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn • Def3 • Fattorizzazione di un EST Scompatibile con GE S=s1 s2 … sk t.c. per 1  i1 < i2 < … < ik  n si abbia: • edit (st, fit) errore per t=2, 3, …, k-1 • edit(s1, suff(fi1)) errore e edit(sk, pref(fik)) errore st= suff (fit) ost= pref (fit) variante di splicing

  13. Il problema Input - Una sequenza genomica G - Un cluster di sequenze EST S = {S1, S2, …, Sn} Output Una fattorizzazione GE di G (GE = f1, f2, …, fn) e un set di fattorizzazioni degli EST compatibili con GE Obiettivo: minimizzare n

  14. A2 A1A2 B D1 D1 C1 7 exons 4 esoni S1 A2 D1 C1 S2 A1A2 B D1 S3 A2 D1D2 C1C2 Esempio Sequenza genomica G A2 A2 A2 A2 A1A2 A1A2 A1A2 B B B D1 D1 D1 C1 C1 D1D2 D1D2 D1D2 D1D2 C1C2 C1C2 C1C2 C1C2 EST set S = {S1, S2, S3}

  15. Risultati • Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) • Euristica: Processo iterativo per fattorizzare ogni EST backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE

  16. em L’algoritmo Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij) si-1 1 si-1 j-1 si-1 j si-1 n Si-1 si1 si j-1 sij Si e1 e2 em G After placing all the factors sij for the set S, place the external factors; if (Compatible(em, exon_list)) then add em to exon_list; otherwise try to place sij elsewhere; If not possible then backtrack;

  17. ag gt L’algoritmo (dettagli) Calcolo del fattore sij G esone c2 si1 si j-1 si jy si j Si c1 c1 c1 c1 c2 c2 c3 c4 c5 sij Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is bounded Find the canonical ag pattern on the left Then the algorithm searches a perfect match of c2 on G Then the entire factor sij can be placed on G The algorithm searches a perfect match of c1 on G Sij can be divided into n components ck (k=1,2,…,n) At least one of these components for k from 1 to (n-1) is error-free and can be placed on G Suppose that c2 has a perfect match on G Suppose that c1 has no perfect match on G

  18. ASPic software (Alternative Splicing PredICtion) Input - La lunghezza minima prevista per un esone - La lunghezza della componente di matching perfetto - L’errore di riduzione degli introni - L’errore di sequenziamento di un EST - La sequenza genomica - Il cluster di EST Output - Un file di testo per tutti gli allineamenti EST-genomica - Un file HTML degli allineamenti in prossimità dei siti di splicing predetti

  19. ASPic web site ASPic è un web-based tool disponibile all’indirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input

  20. ASPIC web site

  21. ASPIC web site

  22. ASPIC web site http://www.caspur.it/ASPIC/ OUTPUT: • Information about the input • A graphical view of the predicted gene structure • A table of the predicted introns • A graphical view of the transcript-genome alignments • A graphical view of the predicted full-length isoforms • A table of the predicted full-length isoforms

  23. ASPIC web site

  24. ASPIC web site

  25. ASPIC web site

  26. ASPIC web site

  27. ASPIC web site

  28. ASPIC web site

  29. ASPIC web site

  30. Prediction of p53 protein isoforms

  31. GRAZIE!

More Related