C Cytosine G Guanine T Thymine U Uracil R Guanine / Adenine (pu R ine)

Bør kunne enbokstavkoder for nukleotider og aminosyrer, innbefattet konsensuskodene for nukleotidene • CCytosine • GGuanine • TThymine • UUracil • RGuanine / Adenine (puRine) • YCytosine / Thymine (pYrimidine) • AAdenine • KGuanine / Thymine (Keto) • MAdenine / Cytosine (aMino) • SGuanine / Cytosine (Strong) • WAdenine / Thymine (Weak) • BGuanine / Thymine / Cytosine (not A) • DGuanine / Adenine / Thymine (not C) • HAdenine / Cytosine / Thymine (not G) • VGuanine / Cytosine / Adenine (not T) • NAdenine / Guanine / Cytosine / Thymine

Bør kunne enbokstavkoder for nukleotider og aminosyrer, innbefattet konsensuskodene for nukleotidene • A Ala alanine • B Asx aspartic acid or asparagine • C Cys cysteine • D Asp aspartic acid • E Glu glutamic acid • F Phe phenylalanine • G Gly glycine • H His histidine • I Ile isoleucine • K Lys lysine • L Leu leucine • M Met methionine • N Asn asparagine • P Pro proline • Q Gln glutamine • R Arg arginine • S Ser serine • T Thr threonine • U Sec selenocysteine • V Val valine • W Trp tryptophan • XXaa unknown or 'other' amino acid • Y Tyr tyrosine • Z Glx glutamic acid or glutamine (or substances such as4-carboxyglutamic acid and 5-oxoproline thatyield glutamic acid on acid hydrolysis of peptides)

Bør kunne se på en sekvens (entry) fra de vanligste databasene og forklare hva de forskjellige feltene står for LOCUS LISOD 756 bp DNA BCT 30-JUN-1993 DEFINITION L.ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 NID g44010 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG

Bør kunne se på en sekvens (entry) fra de vanligste databasene og forklare hva de forskjellige feltene står for EMBL:TRBG361 ID TRBG361 standard; RNA; PLN; 1859 BP. XX AC X56734; S46826; XX SV X56734.1 XX DT 12-SEP-1991 (Rel. 29, Created) DT 15-MAR-1999 (Rel. 59, Last updated, Version 9) XX DE Trifolium repens mRNA for non-cyanogenic beta-glucosidase XX KW beta-glucosidase. XX OS Trifolium repens (white clover) OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae; OC eurosids I; Fabales; Fabaceae; Papilionoideae; Trifolieae; Trifolium. XX

Bør kunne tolke ”feature table” i en sekvens fra en database og gi eksempler på hva slags ”features” man kan finne der FH Key Location/Qualifiers FH FT source 1..1859 FT /db_xref="taxon:3899" FT /organism="Trifolium repens" FT /tissue_type="leaves" FT /clone_lib="lambda gt10" FT /clone="TRE361" FT CDS 14..1495 FT /db_xref="SWISS-PROT:P26204" FT /note="non-cyanogenic" FT /EC_number="3.2.1.21" FT /product="beta-glucosidase" FT /protein_id="CAA40058.1" FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSRSSFPRGFI FT FGAGSSAYQFEGAVNEGGRGPSIWDTFTHKYPEKIRDGSNADITVDQYHRYKEDVGIMK FT DQNMDSYRFSI…. FT mRNA 1..1859 FT /evidence=EXPERIMENTAL

Bør vite hvordan forskjellige proteinsekvensdatabaser skiller seg fra hverandre (redundancy, annotering, mengde sekvens……….. • The SWISS-PROT database consists of sequence entries. It contains high-quality annotation, is non-redundant and cross-referenced to many other databases. • TrEMBL release 17 (June 2001) was created from the EMBL Nucleotide Sequence Database release 66 and updates up to 01.05.01 and contains 540,195 sequence entries, comprising 155,771,315 amino acids. • The Protein Information Resource (PIR), in collaboration with MIPS and JIPID, produces the PIR-International Protein Sequence Database (PIR-PSD) -- a comprehensive, non-redundant, expertly annotated, fully classified and extensively cross-referenced protein sequence database in the public domain. • UniProt (Universal Protein Resource) is the world's most comprehensive catalogue of information on proteins. It is a central repository of protein sequence and function created by joining the information contained in Swiss-Prot, TrEMBL, and PIR.

Bør kunne gi eksempler på nukleotidsekvensdatabaser, proteinsekvensdatabaser og andre databaser

Bør kunne forklare hvordan Entrez og SRS kan brukes til databasesøk samt gi eksempler på forskjeller mellom disse søkesystemene

Bør kunne gjenkjenne forskjellige vanlig brukte sekvensformater (SRS, FASTA, tekst….) Her er en sekvens i GCG-format EXTRACTPEPTIDE of frames: C from: caupol.map (Linear) MAP of: caupol.raw check: 2457 from: 1 to: 3957 Frame C from: 1 to: 1318 caupol.pep Length: 941 August 27, 1995 16:35 Type: P Check: 9501 .. 1 MAYPLLVLVD GHALAYRAFF ALRESGLRSS RGEPTYAVFG FAQILLTALA 51 EYRPDYAAVA FDVGRTFRDD LYAEYKAGRA ETPEEFYPQF ERIKQLVQAL 101 NIPIYTAEGY EADDVIGTLA RQATERGVDT IILTGDSDVL QLVNDHVRVA 151LANPYGGKTS VTLYDLEQVR KRYDGLEPDQ LADLRGLKGD TSDNIPGVRG Her er en annen i FASTA-format >ECPOLA V00317 E. coli gene polA coding for DNA polymerase I. 9/93 CACCGGGCAACGGCGGCAGAAGTGTTTGGTTTGCCACTGGAAACCGTCACCAGCGAGCAA CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC GA Mens dette er et eksempel på en ren tekstfil CGCCGTAGCGCGAAAGCGATCAACTTTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTG GCGCGGCAATTGAACATTCCACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAA CGCTACCCTGGCGTGCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGC TACGTTGAAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGT GCTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCGCCGCC

G A T C G G A A T A G G A X C X G X G X X A X X T X X X T X A X X G Bør kjenne til dotplots og hvordan variasjon av forskjellige parametere for slike (vindustørrelse, terskel for treff) kan manipuleres for å justere sensitivitet og selektivitet. Sensitiviteten kan økes ved å redusere kravet om full identitet. Her er det satt et kryss dersom to av tre elementer i samme posisjon er identiske

Bør kunne forklare kvalitativt begrepene sensitivitet og selektivitet. • For dotplots: selektivitet – bare diagonaler som faktisk representerer signifikant likhet, sensitivitet – alle signifikant like områder representert med diagonaler • Disse begrepene brukes også f. eks når det gjelder søk i databaser, hvor høy selektivitet betyr få falske positive og høy sensitivitet få falske negative

Bør kunne tolke dotplots, både hvor to forskjellige proteiner sammenlignes og hvor et protein sammenlignes med seg selv

G A T C G G A A T A G G I denne sekvensmatrisen er det trukket to stier A C G G Den heltrukne tilsvarer som før sammenstillingen GA-CGGATTAGGATCGGAATAG mens den prikkete stien tilsvarer sammenstillingen GACGG---ATTAGG-ATCGGAATAG- A T T A G Bør kunne sammenhengen mellom stier i en sekvensmatrise og parvise sekvenssammenstillinger, dvs. bør kunne ”oversette” fra sti til sammenstilling og omvendt.

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger. Først initieres matrisen ved å fylles ut med 0, -2, -4… i ekstraraden og kolonnen, samt et tall som tilsvarer poengsummen for kombinasjonen av to nukleotider som hver rute representerer. Så fylles nye tall inn i rutene, systematisk fra kolonne til kolonne. Tallet som fylles inn skal være det høyeste av tre alternativer: a) Verdien i ruten diagonalt oppover til venstre fra ruten som skal fylles inn + poengverdien i hjørnet på ruten det gjelder. b) Verdien i ruten til venstre for ruten det gjelder + poengverdien for gap (-2). Verdien i ruten over ruten det gjelder + poengverdien for gap (-2).

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger. Subglobale sammenstillinger: Ingen straff for gap i endene av de to sekvensene. Brukes f. eks. dersom de to sekvensene har svært forskjellig lengde eller dersom vi vet at den ene er en partiell sekvens. Algoritme som for globale sammen-stillinger, men initiering med 0 i alle ruter i øverste rad og venstre kolonne, og tilbakesporing fra den ruten i nederste rad/høyre kolonne som har høyest poeng.

Bør kunne beskrive hvordan Needleman-Wunsch-algoritmen og Smith-Waterman-algoritmen arbeider for å finne optimale globale, subglobale og lokale sammenstillinger. • Smith-Waterman-algoritmen søker etter de delsekvenser i de to sekvenser som gir høyest poengsum ved sammenstilling. Endringer sammenlignet med søk etter optimal global sammenstilling: • Matrisen initieres med 0 i øverste rad og venstre kolonne, som for semiglobale oppstillinger. • Det innføres et fjerde valg ved utfylling av rutene, nemlig d) null • Tilbakesporingen begynner i den ruten i matrisen som har høyest verdi etter utfylling

-3 -5 -15 1 -1 -7 -9 -19 -13 -17 -11 -8 0 -10 -16 -1 -12 -2 -6 -14 -4 +2 +1 -13 -3 +1 -7 -11 -1 -5 -9 0 -3 0 -5 -8 +2 0 -6 -1 -4 -10 -2 0 -2 -3 -7 -5 +1 -7 +3 +1 -1 -3 -2 -4 -5 0 +4 -2 -4 +1 -1 -4 -9 -6 +2 +3 -8 -1 +2 -3 +3 -5 -1 -11 +1 -6 -10 +1 0 +2 -6 0 -3 +4 -13 -7 -5 -12 -9 -2 +5 +2 -8 -7 +1 -5 +3 -15 -6 -4 +3 -1 0 +6 -14 -10 -7 -11 -17 Bør kunne utlede korte globale og lokale optimale sammenstillinger med papir og blyant og tilgang på en substitusjonsmatrise og den tilhørende sekvenssammenstilling GA-CGGATTAGGATCGGAATAG

Bør kjenne til affine gapfunksjoner og gi formler for slike Biologisk sett: Mer sannsynlig med færre, større gap enn mange små Affine gapfunksjoner: w(k)=h + gk for k  1, w(0) = 0

Bør kunne forklare hvorfor affine gapfunksjoner kan anses som mer ”biologiske” enn bruk av en konstant gapstraff Biologisk sett: Mer sannsynlig med færre, større gap enn mange små. Affine gapfunksjoner sørker for at et gap med lengde k gis mindre straff en k gap med lengde 1

Bør kunne litt om hvordan aminosyrer kan inndeles i grupper ut fra fysikalske egenskaper

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på. • Genetic Code Matrix: Score based on minimum number of base changes required to convert one amino acid into another. • Physical/ chemical characteristics. Attempt to quantify some physical or chemical attribute of the residues and arbitrarily assign weights based on similarities of the residues • Identity matrix • Log odds matrices

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på. • Reconstruct phylogenetic trees and infer ancestral sequences. 71 trees containing 1,572 exchanges were used. • Align sequences that are at least 85% identical (minimize ambiguity in alignments, minimize the number of coincident mutations. • Count replacements "accepted" by natural selection, in all pairwise comparisons (each Aijis the number of times amino acid j wasreplacedby amino acid i in all comparisons). • Compute amino acid mutability mj , i. e., the propensity of a given amino acid, j, to be replaced. • Combine data from 3 & 4 to produce a Mutation Probability Matrix for one PAM of evolutionary distance (1 PAM (Accepted Point Mutation per 100 residues)), according to the followingformulae: • Calculate Log Odds Matrix for similarity scoring:Divide each element of the Mutation Data Matrix, M, by the frequency of occurrence of each residue: R is a Relatedness Odds Matrix , fiis the frequency of residue i.The Log Odds Matrix, Sij, is calculated from the relatedness odds matrix, Rij, simply by taking the log of each Rij and multiplying with 10

Bør kunne gi en overfladisk beskrivelse av hvordan substitusjonsmatriser av type PAM og BLOSUM er utledet og hva tallene i matrisen er et mål på. • 1. Starting data is conserved blocks from Blocks database. • aligned, ungapped sequences • widely varying similarity, but measures are taken to avoid biasing the sample with frequently occurring highly related sequences. • 2. Counts of replacements are made by straight forward counting of all pairs of aligned residues, fij • The observed frequency of each pair is:qij= fij/( total number of residue pairs) • This includes cases of i= j (i. e. no replacement observed). • The expected frequency of each pair is essentially the product of the frequencies of each residue in the data set. Similar sequences in a block above a threshold percent similarity are clustered and members of the cluster count fractionally toward the finaltally. • Reduces the number of identical pairs (AA, SS, TT, etc., matches) in the final tallies. • Somewhat analogous to increasing the PAM distance. • If clustering threshold is 80%, final matrix is BLOSUM 80. • Clustering at 62% reduces the number of blocks contributing to the table by 25%- still 1.25 x 10^ 6 pairs contributed! • Least frequent amino acid pair replacement was observed 2369 times!

Bør kunne si noe om valg av PAM-matrise (1-250) eller BLOSUM-matrise (45-80)

Bør vite forskjellen på et søkeprogram og en database og kunne slå hardt ned på utsagn som ”jeg søkte i BLAST og fant……..)

Bør kunne gi en beskrivelse av hvordan FASTA og BLAST arbeider 1 2 3 4 5 6 7 8 9 10 11 s = H A R F Y A A Q I V L A 2, 6, 7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 others... Ktup= 1 1 2 3 4 5 6 7 8t = V D M A A Q I A +9 Hash table -2+2+3 -3+1+2 +2 +2 -6-2-1 Offset vector

Bør kunne gi en beskrivelse av hvordan FASTA og BLAST arbeider • Blast lager en liste over alle tretegns-ord (words, delsekvenser) i søkeproteinet (for sekvensen MEFGALLY.. blir de MEF, EFG, FGA, GAL osv.) • Ved bruk av BLOSUM62 identifiseres for hvert av disse ordene ord som gir en score over en viss grenseverdi (neighborhood word score threshold) (ca. 50 nye ord for hvert utgangsord • Hver sekvens i databasen gjennomsøkes så for eksakte treff med hvert av de 50 ordene for hver posisjon i søkesekvensen • Treffene utvides så til poengsummen begynner å bli lavere. Resultatet er et lengre sammenstilte sekvensstrekk kalt HSP (high-scoring segment pair). • Sammenkobling av HSP med egnet plassering.

Bør vite hva slags innflytelse variasjon av parametere i FASTA og BLAST kan ha på søkeresultatet. • FASTA: • For DNA-søk er ktup 4-6, for proteinsøk 1eller 2. • Valg av ktup har innvirkning på resultatet: • Lav ktup øker sensitiviteten, dvs. evnen til å finne fjerne slektninger • Høy ktup øker selektiviteten, dvs. evnen til å forkaste falske positiver

Bør kunne forklare FASTA-parametere som ktup (k-tuple) og BLAST-parametere som Word size og kjenne defaultstørrelsen av disse for nukleinsyre- og proteinsøk. FASTA: For DNA-søk er ktup 4-6, for proteinsøk 1eller 2.

Bør kjenne variantene av FASTA og BLAST (tblastn osv) og når de forskjellige variantene bør brukes • blastp compares an amino acid query sequence against a protein sequence database • blastn compares a nucleotide query sequence against a nucleotide sequence database • blastxcompares a nucleotide query sequence translated in all reading frames against a protein sequence database • tblastn compares a protein query sequence against a nucleotide sequence database dynamically translated in all reading frames • tblastx compares the six-frame translations of a nucleotide query sequence against the six-frame translations of a nucleotide sequence database. Please note that tblastx is extremely slow and cpu-intensive • Psi-blast - Position Specific Iterated BLAST uses an iterative search in which sequences found in one round of searching are used to build a score model for the next round of searching. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity

Bør kunne definere begrep som homologi, identitet (identity), likhet (similarity).

Bør kunne tolke resultater av søk med BLAST og FASTA, og gjøre rede for størrelser som Z-score, P og E. • Init1: score of the highest scoring initial region • Initn: sum of initial scores of joined regions minus joining penalty for each gap • opt: score of optimal alignment of the region • Z: measure of how unusual the original match is. If score=S, Z=(S-mean)/sd • P: probability that the alignment is no better than random • E(n): expected number of sequences giving the same z-score or better if the database is probed with a random sequence. E=P*(database size n)

Bør kunne tolke resultater av søk med BLAST og FASTA, og gjøre rede for størrelser som Z-score, P og E. • Z-score > 5: significant • P < 10-100: eksakt treff10-100 < P < 10-50: nesten identiske sekvenser 10-50 < P < 10-10: nær beslektede, sikker homologi10-5 < P < 10-1: vanligvis fjerne slektningerP > 10-1: Trolig ikke signifikant treff • E < 0.02: Trolig homologe sekvenser0.02 < E < 1: homologi kan ikke utelukkesE > 1: tilfeldig?

Bør kjenne til Sum of Pairs-metoden for poenggiving for flersekvenssammenstillinger og beregne poeng for en flersekvenssammenstilling med utgangspunkt i SP-metoden og en substitusjonsmatrise Burde kanskje brukt en form for log odds poeng: Log Men ofte brukes sum av par (SP-poeng) SP-poeng (I, -, I, L)= p(I, -) + p(I, I) + p(I, V) + p(-, I) + p(-, V) + p(I, V)

Bør vite hva en heurisisk algoritme er og gi eksempler på slike • Heuristisk: Bruker ikke ren matematikk, men også annen type kunnskap for å løse problemer som ellers ville være umulige eller ta svært lang tid. • Eksempler: FASTA, BLAST, ClustalW

Bør vite hvorfor heuristiske algoritmer er spesielt nyttige når det gjelder flersekvenssammenstillinger Conceptually, there is no reason why a Needleman-Wunsch algorithm can not be performed with more than twosequences. The matrix simply becomes multi-dimensional and the algorithm would work successively througheach dimension. There are however, significant practical problems with this approach. In this case instead ofgrowing as an N 2problem, the computational time will grow as N m, where m is the number of sequences. Hence,even for just 100 nucleotides from 5 species, this is 1005= 10; 000; 000; 000 operations or the equivalent of doing an alignment for two sequences each 100,000 nucleotides long. Obviouslydifferent methods need to be employed. In general these require more assumptions and are not as precise nor ”all-encompassing" as the Needleman-Wunsch or Smith-Waterman algorithms.

Bør funne forklare hvordan ClustalW arbeider og beskrive de forskjellige trinnene som inngår i fremstilling av en flersekvenssammenstilling med dette programmet • Algorithm: CLUSTALW progressive alignment • Construct a distance matrix of all N(N - 1)/2 pairs by pairwise dynamic programming alignment followed by approximate conversion of similarity scores to evolutionary distances using the model of Kimura [1983]. • (ii) Construct a guide tree by a neighbour-joining clustering algorithm by Saitou & Nei [1987]. • (iii) Progressively align at nodes in order of decreasing similarity, using sequence-sequence, sequence-profile, and profile-profile alignment.

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller F K L L S H C L L VF K A F G Q T M F QY P I V G Q E L L GF P V V K E A I L KF K V L A A V I A DL E F I S E C I I QF K L L G N V L V C F K L L G Q V I L Q Konsensus

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C Pattern (mønster) F-[KP]-[VL]-[VL]-[GS]-Q-V-[LI]-L-Q

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V CA -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18

Bør kunne beskrive hvordan flersekvenssammenstillinger kan benyttes for fremstilling av konsensussekvenser, mønstere, profiler og skjulte Markov-modeller

Bør kunne forklare fordelene med profiler og HMM framfor vanlige substitusjonsmatriser • Forenklet kan man si at profiler og HMM representerer substitusjonsmatriser a la PAM og BLOSUM, men hvor vi har en posisjonsavhengige poeng for aminosyrene

Bør kunne forklare hvordan Psi-BLAST arbeider og fordelene med dette programmet Psi-blast - Position Specific Iterated BLAST uses an iterative search in which sequences found in one round of searching are used to build a score model for the next round of searching. Highly conserved positions receive high scores and weakly conserved positions receive scores near zero. The profile is used to perform a second (etc.) BLAST search and the results of each "iteration" used to refine the profile. This iterative searching strategy results in increased sensitivity

Bør kunne beskrive farene forbundet med bruk av Psi-BLAST • Psi-BLAST lager profiler av treffene og søker med profilen i neste trinn. Dersom man plukker opp et protein som a) ikke tilhører familien man er interessert i og b) tilhører en stor annen familie kan den nye familien ”invadere” profilen slik at man til slutt leter etter noe annet enn man tror

is a large collection of multiple sequence alignments and hidden Markov models covering many common protein domains. consists of an automatic compilation of homologous domains. Current versions of ProDom are built using a novel procedure based on recursive PSI-BLAST searches. Large families are much better processed with this new procedure than with the former DOMAINER program. Bør kjenne til forskjellige motivdatabaser (Pfam, Prosite, Prodom). is a compendium of protein fingerprints. A fingerprint is a group of conserved motifs used to characterise a protein family; its diagnostic power is refined by iterative scanning of a composite of SWISS-PROT + SP-TrEMBL. Usually the motifs do not overlap, but are separated along a sequence, though they may be contiguous in 3D-space. Fingerprints can encode protein folds and functionalities more flexibly and powerfully than can single motifs, their full diagnostic potency deriving from the mutual context afforded by motif neighbours.

Bør kjenne til InterPro

Bør kunne si noe fornuftig om forskjeller mellom prokaryote og eukaryote genomerBør kunne litt om størrelse av forskjellige genomer, antall gener…Bør vite at CpG-øyer vanligvis ligger i eller nær gener og derfor har vært viktige genkartleggingsverktøy

Bør kunne si litt fornuftig om repetitive sekvenser generelt og Alu-sekvenser spesielt

Bør kunne si noe fornuftig om problemene med å identifisere gener i pattedyrs-genomer (dårlig definerte spleisesignaler og promotersekvenser, korte eksoner og lange introner osv.)

Bør kunne si noe overfladisk om hvordan forskjellige genfinnerprogrammer arbeider og hva de ser etter. • ”Signaler” i sekvensen: Spleisesignaler, promotere, termineringssignaler, polyA-signaler, CpG-øyer (Gene search by signal) • ”Innholdet” i sekvensen: ORFs, kodonstatistikk osv.(Gene search by content) • Likhet med kjente gener (Gene search by similarity)

C Cytosine G Guanine T Thymine U Uracil R Guanine / Adenine (pu R ine)