B r kunne enbokstavkoder for nukleotider og aminosyrer innbefattet konsensuskodene for nukleotidene
This presentation is the property of its rightful owner.
Sponsored Links
1 / 59

C Cytosine G Guanine T Thymine U Uracil R Guanine / Adenine (pu R ine) PowerPoint PPT Presentation


  • 77 Views
  • Uploaded on
  • Presentation posted in: General

Bør kunne enbokstavkoder for nukleotider og aminosyrer, innbefattet konsensuskodene for nukleotidene. C Cytosine G Guanine T Thymine U Uracil R Guanine / Adenine (pu R ine) Y Cytosine / Thymine (p Y rimidine) A Adenine K Guanine / Thymine ( K eto) M Adenine / Cytosine (a M ino).

Download Presentation

C Cytosine G Guanine T Thymine U Uracil R Guanine / Adenine (pu R ine)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


B r kunne enbokstavkoder for nukleotider og aminosyrer innbefattet konsensuskodene for nukleotidene

Bør kunne enbokstavkoder for nukleotider og aminosyrer, innbefattet konsensuskodene for nukleotidene

  • CCytosine

  • GGuanine

  • TThymine

  • UUracil

  • RGuanine / Adenine (puRine)

  • YCytosine / Thymine (pYrimidine)

  • AAdenine

  • KGuanine / Thymine (Keto)

  • MAdenine / Cytosine(aMino)

  • SGuanine / Cytosine(Strong)

  • WAdenine / Thymine(Weak)

  • BGuanine / Thymine / Cytosine (not A)

  • DGuanine / Adenine / Thymine (not C)

  • HAdenine / Cytosine / Thymine (not G)

  • VGuanine / Cytosine / Adenine (not T)

  • NAdenine / Guanine / Cytosine / Thymine


B r kunne enbokstavkoder for nukleotider og aminosyrer innbefattet konsensuskodene for nukleotidene1

Bør kunne enbokstavkoder for nukleotider og aminosyrer, innbefattet konsensuskodene for nukleotidene

  • A Ala alanine

  • B Asx aspartic acid or asparagine

  • C Cys cysteine

  • D Asp aspartic acid

  • E Glu glutamic acid

  • F Phe phenylalanine

  • G Gly glycine

  • H His histidine

  • I Ile isoleucine

  • K Lys lysine

  • L Leu leucine

  • M Met methionine

  • N Asn asparagine

  • P Pro proline

  • Q Gln glutamine

  • R Arg arginine

  • S Ser serine

  • T Thr threonine

  • U Sec selenocysteine

  • V Val valine

  • W Trp tryptophan

  • XXaa unknown or 'other' amino acid

  • Y Tyr tyrosine

  • Z Glx glutamic acid or glutamine (or substances such as4-carboxyglutamic acid and 5-oxoproline thatyield glutamic acid on acid hydrolysis of peptides)


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne se på en sekvens (entry) fra de vanligste databasene og forklare hva de forskjellige feltene står for

LOCUS LISOD 756 bp DNA BCT 30-JUN-1993

DEFINITION L.ivanovii sod gene for superoxide dismutase.

ACCESSION X64011 S78972

NID g44010

VERSION X64011.1 GI:44010

KEYWORDS sod gene; superoxide dismutase.

SOURCE Listeria ivanovii.

ORGANISM Listeria ivanovii

Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae;

Listeria.

REFERENCE 1 (bases 1 to 756)

AUTHORS Haas,A. and Goebel,W.

TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by

functional complementation in Escherichia coli and characterization

of the gene product

JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992)

MEDLINE 92140371

REFERENCE 2 (bases 1 to 756)

AUTHORS Kreft,J.

TITLE Direct Submission

JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,

Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne se på en sekvens (entry) fra de vanligste databasene og forklare hva de forskjellige feltene står for

EMBL:TRBG361

ID TRBG361 standard; RNA; PLN; 1859 BP.

XX

AC X56734; S46826;

XX

SV X56734.1

XX

DT 12-SEP-1991 (Rel. 29, Created)

DT 15-MAR-1999 (Rel. 59, Last updated, Version 9)

XX

DE Trifolium repens mRNA for non-cyanogenic beta-glucosidase

XX

KW beta-glucosidase.

XX

OS Trifolium repens (white clover)

OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;

OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae;

OC eurosids I; Fabales; Fabaceae; Papilionoideae; Trifolieae; Trifolium.

XX


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne tolke ”feature table” i en sekvens fra en database og gi eksempler på hva slags ”features” man kan finne der

FH Key Location/Qualifiers

FH

FT source 1..1859

FT /db_xref="taxon:3899"

FT /organism="Trifolium repens"

FT /tissue_type="leaves"

FT /clone_lib="lambda gt10"

FT /clone="TRE361"

FT CDS 14..1495

FT /db_xref="SWISS-PROT:P26204"

FT /note="non-cyanogenic"

FT /EC_number="3.2.1.21"

FT /product="beta-glucosidase"

FT /protein_id="CAA40058.1"

FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSRSSFPRGFI

FT FGAGSSAYQFEGAVNEGGRGPSIWDTFTHKYPEKIRDGSNADITVDQYHRYKEDVGIMK

FT DQNMDSYRFSI….

FT mRNA 1..1859

FT /evidence=EXPERIMENTAL


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør vite hvordan forskjellige proteinsekvensdatabaser skiller seg fra hverandre (redundancy, annotering, mengde sekvens………..

  • The SWISS-PROT database consists of sequence entries. It contains high-quality annotation, is non-redundant and cross-referenced to many other databases.

  • TrEMBL release 17 (June 2001) was created from the EMBL Nucleotide Sequence Database  release 66 and updates up to 01.05.01 and contains 540,195 sequence entries,  comprising 155,771,315 amino acids.

  • The Protein Information Resource (PIR), in collaboration with MIPS and JIPID, produces the PIR-International Protein Sequence Database (PIR-PSD) -- a comprehensive, non-redundant, expertly annotated, fully classified and extensively cross-referenced protein sequence database in the public domain.

  • UniProt (Universal Protein Resource) is the world's most comprehensive catalogue of information on proteins. It is a central repository of protein sequence and function created by joining the information contained in Swiss-Prot, TrEMBL, and PIR.


B r kunne gi eksempler p nukleotidsekvensdatabaser proteinsekvensdatabaser og andre databaser

Bør kunne gi eksempler på nukleotidsekvensdatabaser, proteinsekvensdatabaser og andre databaser


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne forklare hvordan Entrez og SRS kan brukes til databasesøk samt gi eksempler på forskjeller mellom disse søkesystemene


B r kunne gjenkjenne forskjellige vanlig brukte sekvensformater srs fasta tekst

Bør kunne gjenkjenne forskjellige vanlig brukte sekvensformater (SRS, FASTA, tekst….)

Her er en sekvens i GCG-format

EXTRACTPEPTIDE of frames: C from: caupol.map 

(Linear) MAP of: caupol.raw check: 2457 from: 1 to: 3957 

Frame C from: 1 to: 1318 

caupol.pep Length: 941 August 27, 1995 16:35 Type: P Check: 9501 ..

1 MAYPLLVLVD GHALAYRAFF ALRESGLRSS RGEPTYAVFG FAQILLTALA

51 EYRPDYAAVA FDVGRTFRDD LYAEYKAGRA ETPEEFYPQF ERIKQLVQAL

101 NIPIYTAEGY EADDVIGTLA RQATERGVDT IILTGDSDVL QLVNDHVRVA

151LANPYGGKTS VTLYDLEQVR KRYDGLEPDQ LADLRGLKGD TSDNIPGVRG  

Her er en annen i FASTA-format

>ECPOLA V00317 E. coli gene polA coding for DNA polymerase I. 9/93

CACCGGGCAACGGCGGCAGAAGTGTTTGGTTTGCCACTGGAAACCGTCACCAGCGAGCAA

CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG

GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA

CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC

TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT

GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC

GA

Mens dette er et eksempel på en ren tekstfil

CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG

GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA

CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC

TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT

GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

G

A

T

C

G

G

A

A

T

A

G

G

A

X

C

X

G

X

G

X

X

A

X

X

T

X

X

X

T

X

A

X

X

G

Bør kjenne til dotplots og hvordan variasjon av forskjellige parametere for slike (vindustørrelse, terskel for treff) kan manipuleres for å justere sensitivitet og selektivitet.

Sensitiviteten kan økes ved å redusere kravet om full identitet. Her er det satt et kryss dersom to av tre elementer i samme posisjon er identiske


B r kunne forklare kvalitativt begrepene sensitivitet og selektivitet

Bør kunne forklare kvalitativt begrepene sensitivitet og selektivitet.

  • For dotplots: selektivitet – bare diagonaler som faktisk representerer signifikant likhet, sensitivitet – alle signifikant like områder representert med diagonaler

  • Disse begrepene brukes også f. eks når det gjelder søk i databaser, hvor høy selektivitet betyr få falske positive og høy sensitivitet få falske negative


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne tolke dotplots, både hvor to forskjellige proteiner sammenlignes og hvor et protein sammenlignes med seg selv


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

G

A

T

C

G

G

A

A

T

A

G

G

I denne sekvensmatrisen er det trukket to stier

A

C

G

G

Den heltrukne tilsvarer som før sammenstillingen

GA-CGGATTAGGATCGGAATAG

mens den prikkete stien tilsvarer sammenstillingen

GACGG---ATTAGG-ATCGGAATAG-

A

T

T

A

G

Bør kunne sammenhengen mellom stier i en sekvensmatrise og parvise sekvenssammenstillinger, dvs. bør kunne ”oversette” fra sti til sammenstilling og omvendt.


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger.

Først initieres matrisen ved å fylles ut med 0, -2, -4… i ekstraraden og kolonnen, samt et tall som tilsvarer poengsummen for kombinasjonen av to nukleotider som hver rute representerer.

Så fylles nye tall inn i rutene, systematisk fra kolonne til kolonne. Tallet som fylles inn skal være det høyeste av tre alternativer:

a)  Verdien i ruten diagonalt oppover til venstre fra ruten som skal fylles inn + poengverdien i hjørnet på ruten det gjelder.

b)     Verdien i ruten til venstre for ruten det gjelder + poengverdien for gap (-2).

Verdien i ruten over ruten det gjelder + poengverdien for gap (-2).


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger.

Subglobale sammenstillinger: Ingen straff for gap i endene av de to sekvensene. Brukes f. eks. dersom de to sekvensene har svært forskjellig lengde eller dersom vi vet at den ene er en partiell sekvens. Algoritme som for globale sammen-stillinger, men initiering med 0 i alle ruter i øverste rad og venstre kolonne, og tilbakesporing fra den ruten i nederste rad/høyre kolonne som har høyest poeng.


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger.

  • Smith-Waterman-algoritmen søker etter de delsekvenser i de to sekvenser som gir høyest poengsum ved sammenstilling. Endringer sammenlignet med søk etter optimal global sammenstilling:

  • Matrisen initieres med 0 i øverste rad og venstre kolonne, som for semiglobale oppstillinger.

  • Det innføres et fjerde valg ved utfylling av rutene, nemlig d) null

  • Tilbakesporingen begynner i den ruten i matrisen som har høyest verdi etter utfylling


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

-3

-5

-15

1

-1

-7

-9

-19

-13

-17

-11

-8

0

-10

-16

-1

-12

-2

-6

-14

-4

+2

+1

-13

-3

+1

-7

-11

-1

-5

-9

0

-3

0

-5

-8

+2

0

-6

-1

-4

-10

-2

0

-2

-3

-7

-5

+1

-7

+3

+1

-1

-3

-2

-4

-5

0

+4

-2

-4

+1

-1

-4

-9

-6

+2

+3

-8

-1

+2

-3

+3

-5

-1

-11

+1

-6

-10

+1

0

+2

-6

0

-3

+4

-13

-7

-5

-12

-9

-2

+5

+2

-8

-7

+1

-5

+3

-15

-6

-4

+3

-1

0

+6

-14

-10

-7

-11

-17

Bør kunne utlede korte globale og lokale optimale sammenstillinger med papir og blyant og tilgang på en substitusjonsmatrise

og den tilhørende sekvenssammenstilling

GA-CGGATTAGGATCGGAATAG


B r kjenne til affine gapfunksjoner og gi formler for slike

Bør kjenne til affine gapfunksjoner og gi formler for slike

Biologisk sett: Mer sannsynlig med færre, større gap enn mange små

Affine gapfunksjoner: w(k)=h + gk for k  1, w(0) = 0


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne forklare hvorfor affine gapfunksjoner kan anses som mer ”biologiske” enn bruk av en konstant gapstraff

Biologisk sett: Mer sannsynlig med færre, større gap enn mange små.

Affine gapfunksjoner sørker for at et gap med lengde k gis mindre straff en k gap med lengde 1


B r kunne litt om hvordan aminosyrer kan inndeles i grupper ut fra fysikalske egenskaper

Bør kunne litt om hvordan aminosyrer kan inndeles i grupper ut fra fysikalske egenskaper


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på.

  • Genetic Code Matrix: Score based on minimum number of base changes required to convert one amino acid into another.

  • Physical/ chemical characteristics. Attempt to quantify some physical or chemical attribute of the residues and arbitrarily assign weights based on similarities of the residues

  • Identity matrix

  • Log odds matrices


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på.

  • Reconstruct phylogenetic trees and infer ancestral sequences. 71 trees containing 1,572 exchanges were used.

  • Align sequences that are at least 85% identical (minimize ambiguity in alignments, minimize the number of coincident mutations.

  • Count replacements "accepted" by natural selection, in all pairwise comparisons (each Aijis the number of times amino acid j wasreplacedby amino acid i in all comparisons).

  • Compute amino acid mutability mj , i. e., the propensity of a given amino acid, j, to be replaced.

  • Combine data from 3 & 4 to produce a Mutation Probability Matrix for one PAM of evolutionary distance (1 PAM (Accepted Point Mutation per 100 residues)), according to the followingformulae:

  • Calculate Log Odds Matrix for similarity scoring:Divide each element of the Mutation Data Matrix, M, by the frequency of occurrence of each residue:

R is a Relatedness Odds Matrix , fiis the frequency of residue i.The Log Odds Matrix, Sij, is calculated from the relatedness odds matrix, Rij, simply by taking the log of each Rij and multiplying with 10


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på.

  • 1. Starting data is conserved blocks from Blocks database.

  • aligned, ungapped sequences

  • widely varying similarity, but measures are taken to avoid biasing the sample with frequently occurring highly related sequences.

  • 2. Counts of replacements are made by straight forward counting of all pairs of aligned residues, fij

  • The observed frequency of each pair is:qij= fij/( total number of residue pairs)

  • This includes cases of i= j (i. e. no replacement observed).

  • The expected frequency of each pair is essentially the product of the frequencies of each residue in the data set.

    Similar sequences in a block above a threshold percent similarity are clustered and members of the cluster count fractionally toward the finaltally.

    • Reduces the number of identical pairs (AA, SS, TT, etc., matches) in the final tallies.

    • Somewhat analogous to increasing the PAM distance.

    • If clustering threshold is 80%, final matrix is BLOSUM 80.

    • Clustering at 62% reduces the number of blocks contributing to the table by 25%- still 1.25 x 10^ 6 pairs contributed!

    • Least frequent amino acid pair replacement was observed 2369 times!


B r kunne si noe om valg av pam matrise 1 250 eller blosum matrise 45 80

Bør kunne si noe om valg av PAM-matrise (1-250) eller BLOSUM-matrise (45-80)


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør vite forskjellen på et søkeprogram og en database og kunne slå hardt ned på utsagn som ”jeg søkte i BLAST og fant……..)


B r kunne gi en beskrivelse av hvordan fasta og blast arbeider

Bør kunne gi en beskrivelse av hvordan FASTA og BLAST arbeider

1 2 3 4 5 6 7 8 9 10 11

s =H A R F Y A A Q I V L

A2, 6, 7

F4

H1

I9

L11

Q8

R3

V10

Y5

others...

Ktup= 1

1 2 3 4 5 6 7 8t = V D M A A Q I A

+9

Hash table

-2+2+3

-3+1+2

+2

+2

-6-2-1

Offset vector


B r kunne gi en beskrivelse av hvordan fasta og blast arbeider1

Bør kunne gi en beskrivelse av hvordan FASTA og BLAST arbeider

  • Blast lager en liste over alle tretegns-ord (words, delsekvenser) i søkeproteinet (for sekvensen MEFGALLY.. blir de MEF, EFG, FGA, GAL osv.)

  • Ved bruk av BLOSUM62 identifiseres for hvert av disse ordene ord som gir en score over en viss grenseverdi (neighborhood word score threshold) (ca. 50 nye ord for hvert utgangsord

  • Hver sekvens i databasen gjennomsøkes så for eksakte treff med hvert av de 50 ordene for hver posisjon i søkesekvensen

  • Treffene utvides så til poengsummen begynner å bli lavere. Resultatet er et lengre sammenstilte sekvensstrekk kalt HSP (high-scoring segment pair).

  • Sammenkobling av HSP med egnet plassering.


B r vite hva slags innflytelse variasjon av parametere i fasta og blast kan ha p s keresultatet

Bør vite hva slags innflytelse variasjon av parametere i FASTA og BLAST kan ha på søkeresultatet.

  • FASTA:

  • For DNA-søk er ktup 4-6, for proteinsøk 1eller 2.

  • Valg av ktup har innvirkning på resultatet:

  • Lav ktup øker sensitiviteten, dvs. evnen til å finne fjerne slektninger

  • Høy ktup øker selektiviteten, dvs. evnen til å forkaste falske positiver


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne forklare FASTA-parametere som ktup (k-tuple) og BLAST-parametere som Word size og kjenne defaultstørrelsen av disse for nukleinsyre- og proteinsøk.

FASTA:

For DNA-søk er ktup 4-6, for proteinsøk 1eller 2.


B r kjenne variantene av fasta og blast tblastn osv og n r de forskjellige variantene b r brukes

Bør kjenne variantene av FASTA og BLAST (tblastn osv) og når de forskjellige variantene bør brukes

  • blastp compares an amino acid query sequence against a protein sequence database

  • blastn compares a nucleotide query sequence against a nucleotide sequence database

  • blastxcompares a nucleotide query sequence translated in all reading frames against a protein sequence database

  • tblastn compares a protein query sequence against a nucleotide sequence database dynamically translated in all reading frames

  • tblastx compares the six-frame translations of a nucleotide query sequence against the six-frame translations of a nucleotide sequence database. Please note that tblastx is extremely slow and cpu-intensive

  • Psi-blast - Position Specific Iterated BLAST uses an iterative search in which sequences found in one round of searching are used to build a score model for the next round of searching. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity


B r kunne definere begrep som homologi identitet identity likhet similarity

Bør kunne definere begrep som homologi, identitet (identity), likhet (similarity).


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne tolke resultater av søk med BLAST og FASTA, og gjøre rede for størrelser som Z-score, P og E.

  • Init1: score of the highest scoring initial region

  • Initn: sum of initial scores of joined regions minus joining penalty for each gap

  • opt: score of optimal alignment of the region

  • Z: measure of how unusual the original match is. If score=S, Z=(S-mean)/sd

  • P: probability that the alignment is no better than random

  • E(n): expected number of sequences giving the same z-score or better if the database is probed with a random sequence. E=P*(database size n)


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne tolke resultater av søk med BLAST og FASTA, og gjøre rede for størrelser som Z-score, P og E.

  • Z-score > 5: significant

  • P < 10-100: eksakt treff10-100 < P < 10-50: nesten identiske sekvenser 10-50 < P < 10-10: nær beslektede, sikker homologi10-5 < P < 10-1: vanligvis fjerne slektningerP > 10-1: Trolig ikke signifikant treff

  • E < 0.02: Trolig homologe sekvenser0.02 < E < 1: homologi kan ikke utelukkesE > 1: tilfeldig?


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kjenne til Sum of Pairs-metoden for poenggiving for flersekvenssammenstillinger og beregne poeng for en flersekvenssammenstilling med utgangspunkt i SP-metoden og en substitusjonsmatrise

Burde kanskje brukt en form for log odds poeng:

Log

Men ofte brukes sum av par (SP-poeng)

SP-poeng (I, -, I, L)= p(I, -) + p(I, I) + p(I, V) + p(-, I) + p(-, V) + p(I, V)


B r vite hva en heurisisk algoritme er og gi eksempler p slike

Bør vite hva en heurisisk algoritme er og gi eksempler på slike

  • Heuristisk: Bruker ikke ren matematikk, men også annen type kunnskap for å løse problemer som ellers ville være umulige eller ta svært lang tid.

  • Eksempler: FASTA, BLAST, ClustalW


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør vite hvorfor heuristiske algoritmer er spesielt nyttige når det gjelder flersekvenssammenstillinger

Conceptually, there is no reason why a Needleman-Wunsch algorithm can not be performed with more than twosequences. The matrix simply becomes multi-dimensional and the algorithm would work successively througheach dimension. There are however, significant practical problems with this approach. In this case instead ofgrowing as an N 2problem, the computational time will grow as N m, where m is the number of sequences. Hence,even for just 100 nucleotides from 5 species, this is

1005= 10; 000; 000; 000

operations or the equivalent of doing an alignment for two sequences each 100,000 nucleotides long. Obviouslydifferent methods need to be employed. In general these require more assumptions and are not as precise nor ”all-encompassing" as the Needleman-Wunsch or Smith-Waterman algorithms.


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør funne forklare hvordan ClustalW arbeider og beskrive de forskjellige trinnene som inngår i fremstilling av en flersekvenssammenstilling med dette programmet

  • Algorithm: CLUSTALW progressive alignment

  • Construct a distance matrix of all N(N - 1)/2 pairs by pairwise dynamic programming alignment followed by approximate conversion of similarity scores to evolutionary distances using the model of Kimura [1983].

  • (ii)Construct a guide tree by a neighbour-joining clustering algorithm by Saitou & Nei [1987].

  • (iii)Progressively align at nodes in order of decreasing similarity, using sequence-sequence, sequence-profile, and profile-profile alignment.  


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller

F K L L S H C L L VF K A F G Q T M F QY P I V G Q E L L GF P V V K E A I L KF K V L A A V I A DL E F I S E C I I QF K L L G N V L V C

F K L L G Q V I L Q

Konsensus


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller

F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C

Pattern (mønster) F-[KP]-[VL]-[VL]-[GS]-Q-V-[LI]-L-Q


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller

F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V CA -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller


B r kunne forklare fordelene med profiler og hmm framfor vanlige substitusjonsmatriser

Bør kunne forklare fordelene med profiler og HMM framfor vanlige substitusjonsmatriser

  • Forenklet kan man si at profiler og HMM representerer substitusjonsmatriser a la PAM og BLOSUM, men hvor vi har en posisjonsavhengige poeng for aminosyrene


B r kunne forklare hvordan psi blast arbeider og fordelene med dette programmet

Bør kunne forklare hvordan Psi-BLAST arbeider og fordelene med dette programmet

Psi-blast - Position Specific Iterated BLAST uses an iterative search in which sequences found in one round of searching are used to build a score model for the next round of searching. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity


B r kunne beskrive farene forbundet med bruk av psi blast

Bør kunne beskrive farene forbundet med bruk av Psi-BLAST

  • Psi-BLAST lager profiler av treffene og søker med profilen i neste trinn. Dersom man plukker opp et protein som a) ikke tilhører familien man er interessert i og b) tilhører en stor annen familie kan den nye familien ”invadere” profilen slik at man til slutt leter etter noe annet enn man tror


B r kjenne til forskjellige motivdatabaser pfam prosite prodom

is a large collection of multiple sequence alignments and hidden Markov models covering many common protein domains.

consists of an automatic compilation of homologous domains. Current versions of ProDom are built using a novel procedure based on recursive PSI-BLAST searches. Large families are much better processed with this new procedure than with the former DOMAINER program.

Bør kjenne til forskjellige motivdatabaser (Pfam, Prosite, Prodom).

is a compendium of protein fingerprints. A fingerprint is a group of conserved motifs used to characterise a protein family; its diagnostic power is refined by iterative scanning of a composite of SWISS-PROT + SP-TrEMBL. Usually the motifs do not overlap, but are separated along a sequence, though they may be contiguous in 3D-space. Fingerprints can encode protein folds and functionalities more flexibly and powerfully than can single motifs, their full diagnostic potency deriving from the mutual context afforded by motif neighbours.


B r kjenne til interpro

Bør kjenne til InterPro


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne si noe fornuftig om forskjeller mellom prokaryote og eukaryote genomerBør kunne litt om størrelse av forskjellige genomer, antall gener…Bør vite at CpG-øyer vanligvis ligger i eller nær gener og derfor har vært viktige genkartleggingsverktøy


B r kunne si litt fornuftig om repetitive sekvenser generelt og alu sekvenser spesielt

Bør kunne si litt fornuftig om repetitive sekvenser generelt og Alu-sekvenser spesielt


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne si noe fornuftig om problemene med å identifisere gener i pattedyrs-genomer (dårlig definerte spleisesignaler og promotersekvenser, korte eksoner og lange introner osv.)


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne si noe overfladisk om hvordan forskjellige genfinnerprogrammer arbeider og hva de ser etter.

  • ”Signaler” i sekvensen: Spleisesignaler, promotere, termineringssignaler, polyA-signaler, CpG-øyer (Gene search by signal)

  • ”Innholdet” i sekvensen: ORFs, kodonstatistikk osv.(Gene search by content)

  • Likhet med kjente gener (Gene search by similarity)


B r kunne navnet p et par genombrowsere og vite hva man kan bruke dem til

Bør kunne navnet på et par genombrowsere og vite hva man kan bruke dem til

http://www.genome.ucsc.edu/cgi-bin/hgGateway?org=human

http://www.ensembl.org/

Men NCBI har også en genombrowser: MapView!


B r kjenne en del begreper forbundet med fylogenetiske tr r rot node clade gren grenlengde

Bør kjenne en del begreper forbundet med fylogenetiske trær (rot, node, clade, gren, grenlengde)


B r kunne forklare hva ortologi er og hva paralogi er

Bør kunne forklare hva ortologi er og hva paralogi er.

Homologs are most commonly defined as orthologs, paralogs, or xenologs.

Orthologs are homologs produced by speciation—they represent genes derived from a common ancestor that diverged because of divergence of the organism. Orthologs tend to have similar function.

Paralogs are homologs produced by gene duplication and represent genes derived from a common ancestral gene that duplicated within an organism and then diverged. Paralogs tend to have different functions.

Xenologs are homologs resulting from the horizontal transfer of a gene between two organisms. The function of xenologs can be variable, depending on how significant the change in context was for the horizontally moving gene. In general, though, the function tends to be similar.


B r kunne si noe overfladisk om forskjeller mellom fenetikk fenogram og cladistikk cladogram

Bør kunne si noe overfladisk om forskjeller mellom fenetikk/(fenogram og cladistikk/cladogram.

  • Fenetikk: Studiet av sammenhenger mellom organismer basert på graden av likhet mellom dem. Fenogram: Et trelignende nettverk som viser fenetiske sammmenhenger

  • Cladistikk: Studiet av evolusjonære veier. Cladogram: Fylogenetisk tre med rot


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne si noe fornuftig om fordeler/ulemper ved å sammenstille nukleinsyre-/proteinsekvenser for fylogenetisk analyse

  • rRNA

    • best for very long term evolutionary studies spanning biological kingdoms

    • most consistent with an evolutionary clock. Selective processes constraining sequence evolution should be roughly the same across species boundaries

  • DNA/RNA

    • contains more evolutionary information than protein

    • high rate of base substitution makes DNA best for very short term studies eg. closely-related species

  • Protein

    • more reliable alignment than DNA

    • fewer homoplasies than DNA

    • lower rate of substitution than DNA; better for wide species comparisons


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive forskjeller mellom distansebaserte og karakterbaserte metoder for fremstilling av fylogenetiske trær og gi eksempler på metoder fra hver av disse gruppene.

  • Distansebaserte metoder

    • UPGMA (unweighted pair-group method with arithmetic mean

    • NJ (neighbour joining)

  • Karakterbaserte metoder

    • MP (maximum parsimony, ”maksimal gjerrighet”)

    • ML (maximum likelihood, maksimal sannsynlighet)


B r kunne beskrive hvordan vi beregner distansen mellom to sekvenser

Bør kunne beskrive hvordan vi beregner distansen mellom to sekvenser

  • p-distansen: Andelen av seter hvor de to sekvensene er forskjellige

t1 aaaaaccg

t2 tgca-gtt

t3 tgcaagtt

t1 og t3: 6 av 8 forskjellige, distanse = 6/8 = 0.75

t1 og t2: 6 av 7 forskjellige, distanse = 6/7 = 0.85714


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne si noe kvalitativt om behovet for å korrigere for flere gangers mutasjon i samme sete (Jukes-Cantor og Kimura).

Jukes & Cantor: antar alle posisjoner har samme substitusjonsfrekvens, alle endringer like sannsynlige

Kimura: Tar for seg transversjoner og transisjoner separat (to-parametermodellen)


C cytosine g guanine t thymine u uracil r guanine adenine pu r ine

Bør kunne beskrive hvordan UPGMA-metoden fungerer.Bør kjenne fordeler og ulemper med UPGMA-metodenBør kunne beskrive hvordan Neighbor joining fungerer.Bør kjenne fordeler og ulemper ved NJ-metoden.Bør kunne forklare hvordan Maximun parsimony fungerer.Bør kunne identifisere informative seter for Maximum parsimonyBør kunne forklare kvalitativt hvordan Maximum likelihood fungererBør vite hvordan man kan bruke utgrupper for å få rot på treet.Bør kunne beskrive bootstrapping – hvordan og hvorfor.


  • Login