slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche PowerPoint Presentation
Download Presentation
Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche

Loading in 2 Seconds...

play fullscreen
1 / 58

Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche - PowerPoint PPT Presentation


  • 143 Views
  • Uploaded on

Introduzione alla bioinformatica. Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche. Novembre 2003.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche' - mirabel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Introduzione alla bioinformatica

Francesco Piva

Istituto di Biologia e Genetica

Università Politecnica delle Marche

Novembre 2003

slide2

Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti.

Ricerca dei geni in un genoma

Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni

Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni

Obiettivi della bioinformatica

Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti

Capire l’evoluzione delle specie

Poter prevedere la ricombinazione nel DNA

Francesco Piva

Ist Biologia e Genetica, Ancona

slide3

Risorse umane, formazione, mezzi

database

Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione…

Metodi statistici

Metodi della bioinformatica

Reti neurali

Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti…

Data mining

Francesco Piva

Ist Biologia e Genetica, Ancona

slide4

mRNA

cDNA

Cloni di cDNA

Il trascrittoma: quanti e quali geni?

Cellule o tessuti

cromosoma

Quanti e quali geni sono contenuti in un genoma?

Quali geni sono espressi in un tessuto?

E in un tessuto patologico?

Sequenziamento

…EST

Francesco Piva

Ist Biologia e Genetica, Ancona

slide5

La costruzione del cDNA

5’UTR

ESONE 1

ESONE 2

3’UTR

AAAAAA

mRNA

3’

TTTTTT

Le sequenze di cDNA ottenute dall’mRNA sono generalmente

tronche

TTTTTT

GGGGGG

TTTTTT

Rimozione dell’RNA e attacco di un poly (G) al cDNA

Francesco Piva

Ist Biologia e Genetica, Ancona

slide6

GGGGGG

TTTTTT 5’

Produzione del cDNA complementare

CCCCCC

AAAAAA 3’

CH3

Metilazione dei due cDNA per proteggere i siti di restrizione

Aggiunta di siti di restrizione Eco RI

GAATTC

GGGGGG

GAATTC

TTTTTT

CCCCCC

CTTAAG

CTTAAG

AAAAAA

Francesco Piva

Ist Biologia e Genetica, Ancona

slide7

GAATTC

GGGGGG

GAATTC

TTTTTT

CCCCCC

CTTAAG

CTTAAG

AAAAAA

Digestione con Eco RI

AATTC

GGGGGG

G

TTTTTT

CCCCCC

CTTAA

G

AAAAAA

vector

Ligazione del cDNA nei plasmidi

Francesco Piva

Ist Biologia e Genetica, Ancona

slide8

La potenzialità di una libreria di cDNA è in relazione al numero di inserti di cDNA indipendenti che siamo riusciti a clonare.

Supponendo di prelevare un’aliquota di batteri trasformati, il titolo è dato dal numero di colonie per unità di volume di batteri ricombinanti

Francesco Piva

Ist Biologia e Genetica, Ancona

slide9

Come stimare la potenzialità di una libreria di cDNA?

Si potrebbe digerire il DNA plasmidico con enzimi di restrizione e analizzare i frammenti tagliati

3kb vettore

inserti

I cloni 7, 8, 9 e 13 non sono ricombinanti: quindi 4/16 = 25%

Esempio di una libreria:

Titolo: 100 unità formanti colonia/microlitri

% cloni non ricombinanti: 10%

Volume totale di batteri trasformati: 1 ml

Potenzialità: (100000 cloni totali – 10000 non ricombinanti) = 90000 inserti di cDNA

slide10

Calcolo delle probabilità applicato alle librerie di cDNA

Che probabilità abbiamo di trovare il clone A2B che ha frequenza dell’ 1% (f=0.01) in una libreria di 100 (N=100) cloni?

Dalla formula

Ricaviamo P = 63.4%

Quanti cloni devo sequenziare (N = ?) per essere abbastanza sicuro (99%  P=0.99) di trovare il clone A2B che ha una frequenza dell’1% (f=0.01)?

Dalla stessa formula ricaviamo N = 458

Francesco Piva

Ist Biologia e Genetica, Ancona

slide11

Un caso reale

Quanti cloni devo sequenziare per avere il 99% delle probabilità di trovare un particolare clone di mio interesse?

In una cellula ho circa 500000 molecole di mRNA

quelli più abbondanti sono rappresentati in 10000 – 15000 copie per cellula

f=10000/500000  0.02

quelli mediamente abbondanti in 200 – 500 copie per cellula

f=500/500000  0.001

quelli rari in 1 – 15 per cellula

f=15/500000  0.000002

per gli abbondanti risulta… N=230

per i mediamente abbondanti… N=4600

per i rari… N=155000

Francesco Piva

Ist Biologia e Genetica, Ancona

slide12

Metodo di arricchimento

Anziché mettersi a sequenziare in modo furioso, si può cercare di operare sulla libreria in modo di aumentare la probabilità di trovare il cDNA di interesse. Questo lo si può fare in vari metodi:

Frazionamento in gel

Clonazione per sottrazione

Francesco Piva

Ist Biologia e Genetica, Ancona

slide13

Metodo di arricchimento

  • Per arricchire la libreria del cDNA di interesse si può
  • selezionare in partenza le cellule o i tessuti più ricchi del trascritto
  • rimuovere dalla libreria le sequenze che non interessano
  • indurre o aumentare la trascrizione del particolare gene con stimoli specifici

Francesco Piva

Ist Biologia e Genetica, Ancona

slide14

Frazionamento in gel

Se si sa la lunghezza del cDNA che stiamo cercando, si possono selezionare su gel prima di legarli al vettore

Francesco Piva

Ist Biologia e Genetica, Ancona

slide15

Clonazione per sottrazione

Linea cellulare +

Linea cellulare -

Sintesi del cDNA dall’mRNA

mRNA

Eliminazione dell’mRNA

Ibridazione

mRNA non appaiati

cDNA non appaiati

Recupero del cDNA non appaiato tramite colonnine di idrossiapatite. Ottengo solo quello non comune alle due linee

Francesco Piva

Ist Biologia e Genetica, Ancona

slide16

Normalizzazione delle librerie di cDNA

Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dall’insieme di cDNA di partenza. In questo modo l’insieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce di quelle più rare.

N° di copie

N° di copie

Tipo di cDNA

Tipo di cDNA

Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della libreria

Si perdono le informazioni sul livello di espressione dei geni

Francesco Piva

Ist Biologia e Genetica, Ancona

slide17

5’ EST

3’ EST

cDNA clone

sequencing primers

Generazione delle sequenze EST: etichette di sequenza espressa

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

AAAAAAA

Francesco Piva

Ist Biologia e Genetica, Ancona

slide18

Scarsa qualità delle sequenze:

errori dovuti ad un sequenziamento automatizzato, senza la supervisione di un operatore, sequenza a passaggio singolo. Quello che importa è determinare la presenza di un trascritto non la sua sequenza. In questo modo si perdono le informazioni sulle mutazioni.

>T27784 g609882 | T27784 CLONE_LIB: Human Endothelial cells. LEN: 337 b.p. FILE gbest3.seq 5-PRIME DEFN: EST16067 Homo sapiens cDNA 5' end

AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATATCTTTAAATATATATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCTAATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGCACTGGACGGTGACGTCAGCCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTGTATACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG

Francesco Piva

Ist Biologia e Genetica, Ancona

slide19

Problemi con gli EST

  • Le sequenze provenienti dallo stesso trascritto vanno raggruppate ‘clustering’
  • Questa operazione non è banale perchè bisogna tener conto dei seguenti problemi:
  • presenza di polimorfismi, le mie EST potrebbero non allineare con la sequenza genomica poiché le EST sono del mio organismo, il genomico è di un organismo diverso da quello che sto studiando
  • un gene può avere anche centinaia di varianti di splicing
  • i geni paraloghi (fisicamente in posizioni cromosomiche diverse ma con trascritti quasi identici)
  • presenza negli EST di pezzi di vettore plasmidico
  • presenza di sequenze genomiche batteriche
  • presenza di sequenze ripetute come le Alu
  • artefatti dovuti al fatto che due inserti di cDNA entrano in tandem in un vettore plasmidico e io li leggo come un unico trascritto
  • In generale questi problemi sono completamente superabili solo quando si conosce la sequenza genomica della specie che sto studiando

Francesco Piva

Ist Biologia e Genetica, Ancona

slide20

cDNA, EST e banche dati

dbEST (pronuncia ‘the best’)

Divisione di GenBank che contiene tutte le sequenze EST, classificate per specie, tessuto, patologia…

Francesco Piva

Ist Biologia e Genetica, Ancona

slide21

dbEST release 103103

Summary by Organism - October 31, 2003

Number of public entries: 18,971,362

Homo sapiens (human) 5,427,521

Mus musculus + domesticus (mouse) 3,915,334

Rattus sp. (rat) 538,251

Triticum aestivum (wheat) 500,902

Ciona intestinalis 492,488

Gallus gallus (chicken) 451,565

Zea mays (maize) 383,759

Danio rerio (zebrafish) 362,445

Hordeum vulgare + subsp. vulgare (barley) 348,233

Xenopus laevis (African clawed frog) 344,747

Glycine max (soybean) 341,578

Bos taurus (cattle) 329,387

Drosophila melanogaster (fruit fly) 261,414

Oryza sativa (rice) 260,890

Saccharum officinarum 246,301

Caenorhabditis elegans (nematode) 215,200

Silurana tropicalis 209,240

Arabidopsis thaliana (thale cress) 190,732

Medicago truncatula (barrel medic) 187,763

Sus scrofa (pig) 171,920

Francesco Piva

Ist Biologia e Genetica, Ancona

slide22

1: BM055437 . ie94h04.y1 Melton...[gi:16813328]

IDENTIFIERS

dbEST Id: 10156577

EST name: ie94h04.y1

GenBank Acc: BM055437

GenBank gi: 16813328

CLONE INFO

Clone Id: IMAGE:5674615 (5')

Source: University of Pennsylvania & Harvard University (HHMI) & Washington University (GSC)

Other ESTs on clone:ie94h04.x1

DNA type: cDNA

PRIMERS

PolyA Tail: Unknown

SEQUENCE

GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATA ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAA ATATGGAAAGTTGCAGATGAGGTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGGCTGTGTCCTAAGCCATGGCCACA AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGAACTCT AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACG

ATTCC

Quality: High quality sequence stops at base: 429

Entry Created: Nov 8 2001

Last Updated: Mar 12 2002

COMMENTS

Library was constructed by Dr. Douglas Melton DNA sequencing by: Washington University Genome Sequencing Center For information on obtaining a clone please contact: Juliana Brown (brown@fas.harvard.edu) This sequence now available from the IMAGE consortium, for clone orders contact: info@image.llnl.gov

PUTATIVE ID Assigned by submitter

SW:CFTR_HUMAN P13569 CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR ;

LIBRARY

Lib Name: Melton Normalized Human Islet 4 N4 - HIS 1

Organism: Homo sapiens

Sex: Both

Organ: Pancreas

Tissue type: Islets of Langerhans

Develop. stage: Adult

Lab host: DH10B

R. Site 1: Not 1

R. Site 2: Sal 1

Inserendo ‘homo sapiens’ e ‘CFTR’

Francesco Piva

Ist Biologia e Genetica, Ancona

slide23

Integrated Molecular Analysis of Genomes and their Expressions

Francesco Piva

Ist Biologia e Genetica, Ancona

slide25

Attenzione: la ricerca è ‘case sensitive’ quindi se digitate ‘cftr’ non trova nulla, si deve digitare ‘CFTR’ maiuscolo.

Francesco Piva

Ist Biologia e Genetica, Ancona

slide26

In IMAGE si trovano due tipi di cluster di geni a seconda che corrispondano a geni già noti

Geni non noti in NCBI Reference Sequence

Geni noti in NCBI Reference Sequence

Full:

Cluster i cui cloni allineano pienamente con un gene noto

Singletons:

Singolo clone che non si può raggruppare con altri già noti e contiene almeno 50 nucleotidi in cui non ci sono sequenze ripetute

Predicted full:

Cluster che contengono una ORF completa ma il cui gene è stato solo predetto sperimentalmente

Multi-member:

Cluster contenente più cloni e il cui gene non è ne noto ne predetto

Unknown:

Cloni di cui non si sa se rappresentano l’intera ORF (perché è stato determinato un solo EST del clone)

Empties:

Cluster già noto ma di cui in questa libreria non ci sono cloni

Partial:

Cloni che non rappresentano l’intera ORF (gli EST al 5’ e al 3’ non coprono l’intera regione del clone)

Francesco Piva

Ist Biologia e Genetica, Ancona

slide27

Numero di cloni che coprono interamente la sequenza codificante, se ne esiste almeno uno allora abbiamo un ‘full cluster’

Identificativo del cluster, attenzione perché può cambiare

descrizione del gene

slide28

E’ possibile vedere gli allineamenti dei cloni che compongono il cluster

o quello delle singole sequenze EST

Francesco Piva

Ist Biologia e Genetica, Ancona

slide29

In questa schermata troviamo i dati sui cloni e sugli EST

Il bottone restituisce la descrizione del gene

Francesco Piva

Ist Biologia e Genetica, Ancona

slide30

Provenienza del clone

Classificazione di un clone:

predicted full, unknown, partial…

clone

EST

Mammalian Gene Collection

Bento Soares

Columbia University

Lavora alla creazione di librerie di EST normalizzate

bento-soares@uiowa.edu

Lunghezza del clone:

dimensione determinata,

se si conosce un solo EST si indica la lunghezza minima

A volte è ambiguo stabilire a quale cluster appartiene un certo clone, il numero a fianco indica a quanti altri cluster (oltre a questo) appartiene questo clone

chi ha verificato il clone

Francesco Piva

Ist Biologia e Genetica, Ancona

slide31

http://merops.sanger.ac.uk/

Francesco Piva

Ist Biologia e Genetica, Ancona

slide32

Si possono fare ricerche per identificativo dell librera, tassuto, stadio di sviluppo…

Francesco Piva

Ist Biologia e Genetica, Ancona

slide33

o per patologia…

Francesco Piva

Ist Biologia e Genetica, Ancona

slide35

gli allineamenti…

Francesco Piva

Ist Biologia e Genetica, Ancona

slide36

Gli omologhi

Francesco Piva

Ist Biologia e Genetica, Ancona

slide37

UniGene

Sviluppato da NCBI, contiene i cluster corrispondenti ai geni

Gli EST sono stati filtrati, verificati con MegaBlast, tutti i cluster sono confrontati con i nuovi EST e verificati settimanalmente

Nota: non fare riferimento agli ID (identificativi) dei cluster poiché possono cambiare settimanalmente

Francesco Piva

Ist Biologia e Genetica, Ancona

slide38

Francesco Piva

Ist Biologia e Genetica, Ancona

slide39

Dalla schermata precedente c’è un collegamento a questo sito

Vengono fornite le sequenze di 10 basi (etichette) in ordine di occorrenza decrescente nel cluster per il gene di interesse

slide40

STACK

Sviluppato dal South African National Bioinformatics Institute, contiene i dati sui cluster, il criterio di allineamento è un po diverso da quello di UniGene perché inizialmente si verifica se due EST sono parzialmente sovrapposti controllando se hanno parti in comune

Francesco Piva

Ist Biologia e Genetica, Ancona

slide41

TIGR

In generale i dati di clustering differiscono da una banca dati all’altra a causa dei diversi criteri adottati

Francesco Piva

Ist Biologia e Genetica, Ancona

slide42

Francesco Piva

Ist Biologia e Genetica, Ancona

slide43

ORF nelle tre fasi, nel filamento diretto e inverso

Zona e direzione in cui allineano gli EST

Per ciscun EST e possibile avere informazioni dal sito TIGR, da GenBank Nucleoride e da IMAGE

Francesco Piva

Ist Biologia e Genetica, Ancona

slide44

Francesco Piva

Ist Biologia e Genetica, Ancona

slide45

Noi possiamo allineare i trascritti sul DNA genomico tramite programmi disponibili su siti internet

  • Questi programmi tengono conto che
  • il trascritto deve essere completamente contenuto nel DNA genomico
  • l’appaiamento potrebbe non essere perfetto
  • l’appaiamento può essere interrotto da introni

Francesco Piva

Ist Biologia e Genetica, Ancona

slide46

Francesco Piva

Ist Biologia e Genetica, Ancona

slide47

Francesco Piva

Ist Biologia e Genetica, Ancona

slide48

Francesco Piva

Ist Biologia e Genetica, Ancona

slide49

Predizione teorica dei geni in un genoma

metodi

Analisi discriminante lineare e quadratica

Alberi di decisione

Modelli di Markov a variabili nascoste

Reti neurali artificiali

Metodo del perceptron

Decomposizione secondo le direzioni di massima dipendenza

Stima degli esameri codificanti

Metodo della matrice di pesi e del vettore di pesi

Francesco Piva

Ist Biologia e Genetica, Ancona

slide50

Analisi discriminante lineare e quadratica

L’obiettivo di questo metodo è:

Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati

Classificare nuovi casi nei gruppi ricavati (predittività)

lineare

quadratico

Concentrazione di B

Concentrazione di B

Concentrazione di A

Concentrazione di A

Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi.

Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili

Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’.

Francesco Piva

Ist Biologia e Genetica, Ancona

slide51

0,36

A

A

0,15

0,32

0,18

0,37

C

C

0,16

0,31

0,17

0,35

0,20

G

G

0,15

0,31

0,26

0,20

0,18

T

T

0,36

Modelli di Markov a variabili nascoste

Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro

Data una sequenza esonica:

…catga…

C

A

T

G

A

Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato.

La parola nascosti indica che uno stato non può essere osservato

Gli schemi di transizione sono caratteristici delle zone codificanti e non.

Francesco Piva

Ist Biologia e Genetica, Ancona

slide52

Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov

Si ricava questo modello

Inserzione di uno stato (regioni altamente variabili)

Stati principali

E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8)

A C A C A T C

(S = logP(sequenza) - lunghezza(sequenza)*log0.25 )

Francesco Piva

Ist Biologia e Genetica, Ancona

slide53

L’attuale modello di predizione di un gene

Stati particolari (es: n)

Inserzione di uno stato (regioni altamente variabili)

Stati principali

- si possono rappresentare regole semplici

- non si considera la frequenza dei dinucleotidi

- non si considera la dipendenza (correlazione) fra i nucleotidi

- in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte

Francesco Piva

Ist Biologia e Genetica, Ancona

slide54

Perceprton

sinapsi

assoni

corpo

w1

x1

dendriti

x2

w2

assone

x3

w3

wn

xn

non linear

function

b

weights

inputs

bias

E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione.

Francesco Piva

Ist Biologia e Genetica, Ancona

slide55

Stima degli esameri

Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esamero

La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri

Alcune parole sono caratteristiche delle sequenze codificanti

Es: CAGCAG

Altre sono caratteristiche di quelle non codificanti

Es: TAATAA

Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero.

Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno.

In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale.

Francesco Piva

Ist Biologia e Genetica, Ancona

slide56

Metodo della marice di pesi

Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro

Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99 +0.27 = 3,54

Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizione

Es:

Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame

GTCACGT

GTCACTT

Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base

slide57

Decomposizione secondo la direzione di massima dipendenza

Francesco Piva

Ist Biologia e Genetica, Ancona

slide58

Reti neurali artificiali

Francesco Piva

Ist Biologia e Genetica, Ancona