Outline
Download
1 / 46

Outline - PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on

Outline. Gene Finding : Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan;. Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007. Gene Finding: Premessa.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Outline' - jayme


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Outline

  • Gene Finding:

    • Struttura ed identificazione di geni in procarioti ed eucarioti;

    • Hidden Markov Models;

      • Genscan;

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Premessa

  • Dimensione del genoma umano: 3 x 109 coppie di nucleotidi

  • Numero di geni ≈ 25.000

  • Percentuale di DNA codificante ≈ 1.6%

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Cosa e’?

  • Data una sequenza di DNA non caratterizzata, trovare:

    • Quali regioni che codificano per proteine

    • Quale dei due filamenti della doppia elica di DNA è codificante

    • Quale schema di lettura è usata in quest’ultimo

    • Dove comincia e dove finisce il gene

    • Dove sono i confini tra esoni/introni negli eucarioti

    • Etc

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Filamento antisense:

TCAAGCGTAAGCCAT

Gene Finding: Struttura del gene

Schema di lettura: ogni segmento di DNA ha 6 schemi di lettura

Filamentosense:

ATGGCTTACGCTTGA

Reading frame #3

GGC

TTA

CGC

TTG

A..

Reading frame #1

ATG

GCT

TAC

GCT

TGC

Reading frame #2

TGG

CTT

ACG

CTT

GA.

Reading frame #5

CAA

GCG

TAA

GCC

AT.

Reading frame #6

AAG

CGT

AAG

CCA

T..

Reading frame #4

TCA

AGC

GTA

AGC

CAT

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Un gene continuo

Un gene discontinuo (esoni intervallati da introni)

Gene dentro un introne di un altro gene

Geni sovrapposti

Gene Finding: Organizzazione del gene

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Struttura del gene procariotico

GENE

5’

3’

ATGCTACGGATG……..TGA

Regione Regolatrice

Promotore

Segnale di Start

Segnale di Stop

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Struttura del gene Eucariotico

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


start

stop

ORF

Gene Finding: ORF (Open Reading Frame)

Un ORF o schema di lettura aperto è una zona compresa tra 2 segnali, uno di start e uno di stop presenti nello stesso frame. All’interno dell’ORF non sono presenti ulteriori segnali di Stop.

Un ORF è una potenziale regione codificante per proteine.

ATG

segnali di stop:

TAA, TGA e TAG

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Primo passo

  • La distanza media tra due segnali di stop in una sequenza casuale di DNA è 64/3 ≈ 21

  • Una proteina è lunga mediamente 300 aminoacidi

  • Se individuiamo due segnali di stop sufficientemente distanti tra loro potremmo essere in presenza di un potenziale gene

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


ORF ?

Gene Finding: ORF in un gene procariotico

Frame 1

Frame 2

Frame 3

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Algoritmo

Per ogni frame bisogna:

Calcolare la distanza tra ogni coppia di segnali di stop consecutivi.

Se sono sufficientemente distanti, si va a ricercare il primo codone di start utile.

Trovato un ORF di lunghezza sufficiente, è da considerare un potenziale gene.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: ORF in un gene eucariotico

  • Quali delle finestre che vediamo sono esoni?

  • Quali invece sono assenze casuali di segnali di stop?

Frame 1

Frame 2

Frame 3

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Procarioti vs Eucarioti

Procarioti:

  • Piccoli genomi 0.5 – 10·106 bp

  • Alta densità basi codificanti (>90%)

  • No introni

  • Identificazione del gene relativamente semplice. Probabilità di successo ~ 99%

Eucarioti:

  • Grandi genomi 107 – 1010 bp

  • Bassa densità basi codificanti (<50%)

  • Struttura introni/esoni

  • Identificazione del gene complessa, livello di accuratezza ~ 50%

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Metodo statistico

  • Un metodo migliore per determinare regioni codificanti tiene conto delle frequenze dei codoni

  • Un uso diverso dei codoni nella regione codificante è una caratteristica universale dei genomi

    • Uso diseguale degli aminoacidi nelle proteine esistenti

    • Uso diseguale di codoni sinonimi

  • Possiamo usare queste caratteristiche per differenziare regioni codificanti e non codificanti del genoma

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali di codifica

Distribuzione delle frequenze di coppie di aminoacidi nelle sequenze delle proteine(shewanella).

La frequenza media è del 5%.

Ogni amminoacido ha delle preferenze nel precedere o seguire un altro amminoacido.

Alcuni aminoacidi sono molto più frequenti di altri.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali di codifica

La frequenza delle coppie di aminoacidi dipende dal genoma!!!

shewanella

bovino

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali di codifica

  • Le preferenze degli aminoacidi si rispecchiano sulle coppie di codoni (o esanucleotidi) presenti nelle zone codificanti.

    Ad esempio Nel genoma umano la frequenza della sequenza “AAA AAA” è ~1% nelle regioni codificanti contro ~5% delle regioni non codificanti.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali di codifica

  • Molti esanucleotidi mostrano grosse differenze di frequenza tra zone codificanti e non codificanti.

  • Fondamenti per rilevare regioni codificanti

  • La frequenza delle coppie di codoni sono segnali chiave usati per identificare regioni codificanti; Tutti i programmi di gene prediction se ne avvalgono.

Regioni di DNA dove sono presenti moltissimi esanucleotidi che sono risultati frequenti in regioni codificanti già appurate, sono probabilmente regioni codificanti; al contrario sono regioni non codificanti.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modello preferenziale

  • Per ogni esanucleotide X (es: AAA AAA), calcolare la sua frequenza in regioni codificanti (FC(X)) e non codificanti(FN(X))

  • Calcolare il valore della preferenza di X:

    P(X) = log(FC(X)/FN(X))

Proprietà

P(X) vale 0 se X ha la stessa frequenza sia nelle regioni codificanti, che in quelle non codificanti.

P(X) ha un valore positivo, se X compare più spesso in regioni codificanti rispetto a quelle non codificanti; più grande è la differenza più alto sarà il valore di P(X).

P(X) ha un valore negativo, se X ha frequenza maggiore in regioni non codificanti; più grande è la differenza più piccolo sarà il valore di P(X).

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modello preferenziale

Esempi

AAA ATT e AAA GAC hanno le seguenti frequenze

  • FC(AAA ATT) = 1.4%, FN(AAA ATT) = 5.2%

  • FC(AAA GAC) = 1.9%, FN(AAA GAC) = 4.8%

  • Avremo

  • P(AAA ATT) = log (1.4/5.2) = -0.57

  • P(AAA GAC) = log (1.9/4.8) = -0.40

  • Una regione formata solo da esanucleotidi di questo tipo, è probabilmente una regione non codificante.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modello preferenziale

  • Perché usiamo un modello basato su coppie di codoni ?

    • Modelli basati su singolo codone spesso non danno abbastanza informazione per capire se siamo davvero in una regione codificante o meno.

    • Modelli basati su triple di codoni hanno bisogno di moltissimi dati per rendere attendibile la statistica.

4*4*4 = 64 codoni

4*4*4*4*4*4 = 4,096 coppie di codoni

4*4*4*4*4*4*4*4*4= 262,144 triple di codoni

Nel caso di triple di codoni avremo quindi necessità di avere almeno un numero elevatissimo di sequenze caratterizzate per popolare la matrice delle frequenze

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Predizione di una regione codificante

Un semplice modello basato sulle frequenze dei codoni:

  • Sia fabc la frequenza con la quale il codone abc occorre in una regione codificante.

  • Data la coding sequence

    a1,b1,c1,a2,b2,c2,……,anbncn,an+1bn+1cn+1

    la probabilità di osservare la sequenza di n codoni nei vari frame di lettura:

    p1 = fa1,b1,c1 x fa2,b2,c2 x … x fan,bn,cn

    p2 = fb1,c1,a2 x fb2,c2,a3 x … x fbn,cn,an+1

    p3 = fc1,a2,b2 x fc2,a3,b3 x … x fcn,an+1,bn+1

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Predizione di una regione codificante

  • Denotiamo con Pi la probabilità dell’i-esimo frame di lettura come:

  • E’ possibile utilizzare in un algoritmo per la ricerca di regioni codificanti nel modo seguente:

    • Consideriamo finestre di size n e calcoliamo Pi per ogni punto di start;

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Predizione di una regione codificante

  • plot di log(p/(1-p)) per i tre frame di lettura:

In questo frame

di lettura il gene è

chiaramente

riconosciuto

gene

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Soglia minima

Regione codificante?

Dove sono i confini ?

  • Decidiamo un valore di soglia per marcare una regione come codificante. Tale valore deve essere scelto testandolo su un training set. Deve essere tale da trovare il maggior numero di regioni codificanti ed escludere il maggior numero di regioni non codificanti.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Boundary Esoni/Introni

Usando come training set, sequenze di DNA la cui suddivisione esoni/introni sia conosciuta, alliniamo tali sequenze rispetto ai due siti di splicing.

Esone Introne Esone 

--gaggcatcag|gtttgtagac-----------tgtgtttcag|tgcacccact--

--ccgccgctga|gtgagccgtg-----------tctattctag|gacgcgcggg--

--tgtgaattag|gtaagaggtt-----------atatctacag|atggagatca--

--ccatgaggag|gtgagtgcca-----------ttatttgcag|gtatgagacg--

Splice site Splice site

EsoneIntroneEsone

--gaggcatcag|GTttgtagac-----------tgtgtttcAG|tgcacccact--

--ccgccgctga|GTgagccgtg-----------tctattctAG|gacgcgcggg--

--tgtgaattag|GTaagaggtt-----------atatctacAG|atggagatca--

--ccatgaggag|GTgagtgcca-----------ttatttgcAG|gtatgagacg--

Splice site Splice site

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali associati con gli estremi di una regione codificante

  • Entrambi i siti di splicing hanno particolari profili di distribuzione nell’uso dei nucleotidi

    Distribuzione dei nucleotidi attorno al Sito Accettore (Genoma Umano).

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Segnali associati con gli estremi di una regione codificante

  • Entrambi i siti di splicing hanno particolari profili di distribuzione nell’uso dei nucleotidi

    Distribuzione dei nucleotidi attorno al Sito Donatore (Genoma Umano).

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Procedura per identificare i segnali regione codificante

  • Creare le matrici pesate per i siti donatori e accettori.

  • Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti

…AAGGTAAGTGTCTCA…

AAGGTAAGT:(34.0+60.4+80.3+100+100+52.6+71.3+81.4+46.2)/100= 6.262

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Procedura per identificare i segnali regione codificante

  • Creare le matrici pesate per i siti donatori e accettori.

  • Sommiamo le frequenze delle lettere corrispondenti nelle posizioni corrispondenti

…AAGGTAAGTGTCTCA…

AGTGTCTCA:(34.0+12.5+ 7.3+100+100+ 2.8+ 9.3+ 5.5+16.0)/100= 2.874

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Identificare i segnali regione codificante

  • In corrispondenza di un sito di splicing, la corrispondente funzione di score avrà un picco significativo.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Rappresentazione grafica della regione codificante di un gene eucariotico

  • Vengono scelti tra gli esoni predetti un insieme che non causa overlapping

Frame 1

Frame 2

Frame 3

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Ulteriori segnali codificante di un gene eucariotico

  • Segnali che identificano la trascrizione

    • TATA-Box (25-30 basi prima dello start)

      presente nel 70% dei casi

    • sito di PolyA

      (AATAAA oppure ATTAAA)

  • Segnali che identificano i promotori

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Ulteriori dati statistici codificante di un gene eucariotico

Distribuzione lunghezza esoni

150 bp

Distribuzione lunghezza introni

60 bp

Una regione ricca di G+C è indice della presenza di un gene (vale solo per i genomi degli eucarioti superiori)

50% G+C

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modelli di Markov codificante di un gene eucariotico

La probabilità di un evento dipende dagli eventi precedenti

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Probabilità di una sequenza di eventi codificante di un gene eucariotico

  • P(Sole, Pioggia, Pioggia, Pioggia, Neve, Neve) =

    P(Sole) P(Pioggia | Sole) P(Pioggia | Pioggia)

    P(Pioggia | Pioggia) P(Neve | Pioggia)

    P(Neve | Neve)

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modelli di Markov Nascosti (HMM) codificante di un gene eucariotico

Quale è la sequenza meteorologica più probabile che ha generato questa sequenza di azioni?

Assunzione (First order Markov chains):

La probabilità di un evento dipende solo dal precedente.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Probabilità di transizione dalla regione I alla II con la sequenza TT

Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO

Creiamo un modello per distinguere due regioni (per semplicità supponiamo siano presenti solo due nucleotidi)

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Modelli di Markov Nascosti (HMM) ESEMPIO sequenza TT

A quale regione appartiene la sequenza TTAT ?

  • Calcoliamo la probabilità di tutte le possibili sequenze di nucleotidi appartenenti alle due regioni.

Risulta più probabile che la sequenza appartiene integralmente alla regione I

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Genscan sequenza TT

http://genes.mit.edu/GENSCAN.html

  • Il tool di gene prediction più utilizzato

    • Presenta il miglior compromesso tra

      Sensibilità e Specificità (sono due misure di accuratezza)

  • Largamente utilizzato dal Consorzio Internazionale durante il Progetto Genoma Umano

  • Utilizza come algoritmo di base l’ Hidden Markov Model (generalizzato)

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Genscan è basato su HMM sequenza TT

http://genes.mit.edu/GENSCAN.html

Le coppie di introni/esoni rappresentano i differenti modi in cui un introne può interrompere una coding sequence (dopo la 1° base, dopo la 2° o dopo la 3°)

E0

E1

E2

I0

I1

I2

Einit

Eterm

Esone iniziale e finale

3’ UTR

5’ UTR

Esngl

polyA

P

Filamento sense

N

………………….. …………………..

Filamento antisense

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Misura dell’accuratezza nella predizione sequenza TT

  • Scelta una caratteristica (es: identificazione esoni)

    Possiamo definire i seguenti valori

  • TP (true positive) = Numero di esoni predetti, che sono risultati veri esoni.

  • FP (false positive) = Numero di esoni predetti che sono in realtà dei falsi.

  • TN (true negative) = Numero di esoni falsi, identificati come tali.

  • FN (false negative)= Numero di esoni reali, identificati come falsi.

    Avremo le seguenti misure

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Confronto tra tool di gene predictioon sequenza TT

(Parametri calcolati a livello nucleotidico)

Coefficiente di correlazione

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Interfaccia Genscan sequenza TT

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Probabilità che l’elemento sia un esone sequenza TT

Inizio, Fine e lunghezza dell’ elemento calcolato

Score del sito Accettore e Donatore di splicing

Filamento sul quale viene fatta la predizione

Score della coding sequence calcolata

Numerazione del Gene e dei suoi elementi

Frame del primo codone dell’elemento

Score complessivo dell’esone

Tipo di elemento riconosciuto

Gene Finding: Output di Genscan

Proteina predetta sulla base della CDS calcolata

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


Gene Finding: Esempio di uso di GenScan sequenza TT

Eseguire con Genscan la scansione del frammento di genoma di Homo sapiens

>gi|2253431|gb|AF007546.1|AF007546

Utilizzare la proteina predetta da Genscan per fare un BLAST proteico (BLASTP) per vedere a cosa corrisponde la predizione fatta da Genscan.

Dept. of Mathematics and Computer Science - University of Catania – Corso di Bioinformatica – 2006/2007


ad