420 likes | 783 Views
Genome sequence. Genome size does not correlate well with gene number or with apparent organism complexity. Closely related organisms can have genome sizes that vary by 100x. Human genome is 30x smaller than some plant genomes.
E N D
Genome size does not correlate well with gene number or with apparent organism complexity Closely related organisms can have genome sizes that vary by 100x Human genome is 30x smaller than some plant genomes
Número de clones teoricamente necessários para representar o genoma Tamanho do genoma (pb) Tamanho do fragmento clonado (pb) 2 X106 Bacteria 2 X107 Fungo 3 X109 mamíferos 5 X103 10 X103 20 X103 40 X103 400 200 100 50 4.000 2.000 1.000 500 600.000 300.000 150.000 75.000 • N= ln (1-P) • ln (1 - f )
Seqüênciamento do genoma por “shotgun” Clonagem e seqüênciamento Genoma aberto Clones “shotgun” Bioinformática Alinhamento dos clones Genoma seqüênciado 5’...ATCGGTACCAGGCTCCTCAGAGT...3’ 3’...TAGCCATGGTCCGAGGAGTCTCA...5’
Construção da biblioteca shotgun • Fragmentos de DNA ramdômicos podem ser obtidos usando o processo HydroShear (GeneMachines Inc., USA).
kb 11,0 7,0 6,0 5,0 4,0 3,0 2,0 1,5 1,0 • DNA sonicado para construção biblioteca shotgun
In shotgun approach,DNA is randomly broken into fragments, and each is sequenced w/out knowing where in the genome the fragment comes from
SEQUENCIAMENTO DE DNA Bancada Bioinformática 1.cromossomo ou cosmídeo 2.fragmentação _ enzimática _ nebulização 3.clonagem _ pUC18 retro-alimentação 4.seqüenciamento ACCTGATGCCGACGGG 5.montagem Contig 1 Contig 2 6.finalização Cosmídeo iniciador 7.anotação Maria Aparecida Fernandez- DBC - UEM
Automated DNA Sequencing If the chain terminators are labeled instead of the primers, all four reactions can occur in the same tube.
SEQUENCIAMENTO DE DNA Maria Aparecida Fernandez- DBC - UEM
Laboratório de bioinformática PC1 PC2 PC3 Servidor e-mail Web FTP Firewall Pentium III 750 MHz PCn Switcher INTERNET Instituições participantes do projeto Sun 450 Enterprise 4 processadores 4 GB RAM 300 GB HD Estrutura da Rede de Computadores Maria Aparecida Fernandez- DBC - UEM
Montagem do genoma • Phred – identificação de bases (base calling) e valores de qualidade • Cross-match – identificação de seqüências de vetor • Phrap – montagem das seqüências contíguas (contigs) • Consed – análise e edição dos contigs • Finalização – fechamento de falhas (Scaffold), determinação de genes (BLAST/Glimmer) e anotação (Artemis/Sequin)
Dogma central da biologia molecular 5´ 3´ DNA 3´ 5´ 5´ 3´ RNA Proteína H2N COOH Replicação do DNA Reparo de DNA Recombinação genética Síntese de RNA Transcrição Transcrição Tradução Síntese protéica Tradução
Gene Definição Molecular Seqüência de DNA que codifica uma proteína Não acredito que vocês estão satisfeitos com esta definição!!!
Gene Falhas da definição molecular • Alguns genomas são constituídos de RNA e não de DNA. • Alguns genes produzem RNA (tRNA e rRNA) e não proteínas. • Algumas regiões não-codantes são importantes para produção de RNA e proteínas.
Gene “ Open Reading Frame” - ORF • É a seqüência de nucleotídeos que codifica os aminoácidos de uma proteína. • A definição molecular de gene é mais ampla do que apenas a seqüência codante.
Finding the regions in a DNA sequence that encode a protein:Computer programs designed to identify ORFs
Gene Definição molecular atual • Toda seqüência de nucleotídeos necessária para a síntese de uma cadeia polipeptídica ou de RNA funcionais.
Gene Regiões não-codantes • Regulatórias Sítios de ligação da RNA polimerase Sítios de ligação dos fatores transcricionais • Íntrons • Sítios de Poliadenilação - poliA
Cauda de poliadenina Seqüência codante ATG Promotor E1 I1 E2 I2 E3 PoliA Interruptor do gene Fatores transcricionais RNA polimerase Seqüência não-codante Splicing Gene
Introns can be recognized by conserved sequences at the junctions that are required for their removal
All parts of the genome are subject to mutation, but not all parts are subject to natural selection Sequences that do not encode protein are not under selective pressure and thus diverge more rapidly
Comparative genomics is our most powerful tool for identifying the exons of expressed genes Random mutations leads to extensive sequence variation between humans and mice at all sites that are NOT under selection. Because of functional constraints, the exons in genes stand out as islands of conservation.
Average human gene is about 20x larger than genes in E. coli or even in yeast
Gene density is much higher in compact yeast genome relative to humanThe partly reflects the compression of gene regulatory sequences into short regions just upstream of the gene. Human regulatory elements can be spread out over tens of 1000s of basepairs
The C. elegans genome was completed in 1998 and is predicted to contain 19,000 genes; 3x more than the unicellular eukaryote, S. cerevisiae