Phred phrap consed genome sequence assembly
This presentation is the property of its rightful owner.
Sponsored Links
1 / 21

Phred / Phrap /Consed Genome/Sequence Assembly PowerPoint PPT Presentation


  • 58 Views
  • Uploaded on
  • Presentation posted in: General

Phred / Phrap /Consed Genome/Sequence Assembly. Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín [email protected] Qué es phred/phrap/consed?. Phred/Phrap/Consed es un paquete de software utilizado para:

Download Presentation

Phred / Phrap /Consed Genome/Sequence Assembly

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Phred phrap consed genome sequence assembly

Phred / Phrap /ConsedGenome/Sequence Assembly

Fernán Agüero

Instituto de Investigaciones Biotecnológicas

Universidad Nacional de General San Martín

[email protected]

Fernán Agüero


Qu es phred phrap consed

Qué es phred/phrap/consed?

Phred/Phrap/Consed es un paquete de software utilizado para:

  • Leer cromatogramas (trace files)

  • Asignar valores de calidad a las bases individuales de una secuencia

  • Identificar y enmascarar secuencias correspondientes a vector (plásmido) o secuencias repetitivas

  • Ensamblar secuencias individuales en contigs

  • Visualizar assemblies (contigs)

  • Hacer ‘sequence finishing’ auto dirigido (automatic finishing)

www.phrap.org

Fernán Agüero


Por que hay que ensamblar

Por que hay que ensamblar?

  • Los métodos actuales de secuenciación generan lecturas de 300-1000 pb (límite de resolución de la electroforesis)

  • Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo (bibliotecas de clones)

  • En la estrategia conocida como ‘shotgun sequencing’ los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final

Fernán Agüero


Phred a basecaller

Phred: a basecaller

  • Genome Res 8 (1998): 175

  • Genome Res 8 (1998): 186

Fernán Agüero


Phred

Phred

  • Phred is a program that performs several tasks:

    • Reads trace files – compatible with most file formats: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.

    • Calls bases – attributes a base for each identified peak with a lower error rate than the standard base calling programs.

    • Assigns quality values to the bases – a “Phred value” based on an error rate estimation calculated for each individual base.

    • Creates output files – base calls and quality values are written to output files.

Fernán Agüero


Trace files

Trace files

  • Alta calidad, sin ambigüedad

Fernán Agüero


Trace files1

Trace files

  • Calidad media, algunas ambigüedades

Fernán Agüero


Trace files2

Trace files

  • Baja calidad

    • la confianza en la asignación de bases es menor

Fernán Agüero


Phred qualities

q= - 10 x log10 (p)

Donde:

q = quality value

p = estimated probability error for a base call

Ejemplos:

q = 20 significa p = 10-2 (1 error cada 100 bases)

q = 30 significa p = 10-3 (1 error cada 1000 bases)

q = 40 significa p = 10-4 (1 error cada 10000 bases)

Phred qualities

Fernán Agüero


Phred phd files

Phred: PHD files

t 6 11908

a 6 11921

g 6 11927

t 6 11947

c 6 11953

a 6 11964

g 6 11981

c 4 11994

n 4 12015

c 4 12037

n 4 12044

n 4 12058

n 4 12071

n 4 12085

n 4 12098

n 4 12111

n 4 12124

c 4 12144

n 4 12151

END_DNA

END_SEQUENCE

t 16 8191

g 19 8200

t 13 8211

c 13 8229

g 4 8241

n 4 8253

c 4 8263

t 10 8276

t 9 8286

c 12 8301

t 16 8313

c 12 8329

c 12 8336

c 15 8343

t 19 8356

c 9 8371

g 13 8386

g 14 8397

a 7 8417

g 9 8427

g 4 8445

BEGIN_SEQUENCE 01EBV10201A02.g

BEGIN_COMMENT

CHROMAT_FILE: EBV10201A02.g

ABI_THUMBPRINT:

PHRED_VERSION: 0.990722.g

CALL_METHOD: phred

QUALITY_LEVELS:99

TIME: Thu May 24 00:18:58 2001

TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 12153

TRIM:

CHEM: term

DYE: big

END_COMMENT

BEGIN_DNA

t 8 5

c 13 17

a 19 26

c 19 32

t 24 2221

a 24 2232

a 22 2245

a 27 2261

g 25 2272

c 19 2286

c 12 2302

t 19 2314

g 12 2324

g 15 2331

g 19 2346

g 23 2363

t 33 2378

g 36 2390

c 44 2404

c 44 2419

t 39 2433

a 39 2446

a 34 2460

t 35 2470

g 34 2482

Fernán Agüero


Phred qual files

Phred: QUAL files

  • Quality values in FASTA format

>106 542 0 542 ABI trimmed

15 15 16 16 16 13 14 16 16 17 16 12 14 15 19 13 15

18 19 18 13 22 29 20 10 13 11 13 13 19 23 25 26 22

23 25 25 29 33 29 19 12 12 16 25 27 48 48 44 40 40

40 40 40 40 35 35 35 35 35 35 40 51 51 45 45 45 45

45 45 51 45 45 45 45 45 45 45 51 51 56 56 56 51 51

45 45 45 45 51 51 51 45 45 45 45 45 45 45 45 45 45

51 51 51 51 51 45 45 45 51 51 51 51 56 56 56 56 56

56 56 56 56 56 51 51 51 51 51 51 51 51 51 51 51 51

51 51 51 56 51 51 39 39 35 35 40 40 56 51 56 56 56

56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51

51 56 56 56 56 56 56 56 56 56 56 56 45 45 45 45 45

45 56 56 45 45 45 45 45 45 56 56 56 56 56 51 51 51

56 56 56 56 56 56 56 56 51 51 51 51 51 51 56 56 56

56 56 56 56 56 56 56 51 51 51 51 51 51 45 45 45 41

45 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51

51 51 51 56 56 56 51 51 51 51 51 56 56 56 56 56 56

56 56 56 56 56 56 51 51 51 51 51 56 56 56 56 56 56

56 56 56 56 51 51 45 45 37 37 37 40 45 45 45 45 51

51 51 51 51 51 56 56 45 45 45 45 45 45 56 56 51 40

40 40 40 40 40 51 51 51 56 56 56 56 56 56 56 56 56

56 56 56 51 51 51 51 40 40 45 45 40 40 40 40 45 45

56 45 45 45 45 45 51 56 56 56 51 39 39 35 35 35 37

46 51 51 51 51 51 56 56 56 51 51 51 51 51 51 51 40

40 40 40 40 40 40 40 40 40 40 34 34 34 32 40 40 32

32 32 32 32 32 32 32 29 29 31 40 56 56 56 40 51 51

51 43 43 56 56 56 56 45 40 40 40 40 39 40 40 40 40

40 51 44 44 40 40 40 40 39 32 29 29 27 29 31 34 34

32 25 25 18 13 13 19 32 40 40 34 29 29 29 40 40 24

17 8 8 9 19 24 40 29 29 25 27 29 29 27 20 14 12 9

9 12 9 10 15 18 24 25 21 23 24 24 27 29 32 33 33 27

23 18 18 23 21 25 29 29 29 29 29 32 40 23 19 9 9 9

15 24 29 29 29 29 29 40 40 32 32 24

Fernán Agüero


Phrap an assembler

Phrap: an assembler

  • Phrap ensambla secuencias de DNA provenientes de proyectos de secuenciación al azar (shotgun)

    • Usa la información de calidad provista por phred

      • no hay necesidad de recortar las secuencias

    • Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente

      • Mejor calidad de los resultados en presencia de repeticiones

    • La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia

      • No es un consenso!

    • Puede manejar grandes sets de datos

      • Cientos de miles de secuencias con facilidad

Fernán Agüero


Consed a finisher

Consed: a finisher

  • Genome Res 8 (1998): 195

Fernán Agüero


Consed

Consed

Fernán Agüero


Consed1

Consed

Fernán Agüero


Consed2

Consed

Fernán Agüero


Consed3

Consed

Fernán Agüero


Consed4

Consed

Fernán Agüero


Phred phrap consed pipeline

Phred / Phrap /Consed pipeline

Input

chromatogram files

Quality (confidence) values assignment

Phred

phd files

- *.phd

Conversion - phd to fasta

phd2fasta.pl

nucleotide sequences

- seqs_fasta

quality values

- seqs_fasta.screen.qual

Vector screening and masking

Cross_Match (local alignment program)

x vector.seq

screened/masked file

- seqs_fasta.screen

Assembly

Phrap

assembled contigs

- seqs_fasta.screen.contigs

assembly file

- seqs_fasta.screen.ace#

Chromat_dir

Assembly viewing/editing

Phd_dir

Consed

Edit_dir

Finishing

Consed

Fernán Agüero


Consed autofinish

Consed: autofinish

  • Finish/finishing

    • en secuenciación es el proceso de acabado de una secuencia

      • edición manual

      • corrección de errores de ensamblado y/o de secuencia

      • re-secuenciación de clones seleccionados, o de productos de PCR amplificados ad hoc

      • Clonado de regiones difíciles

      • Validación del ensamble!

Fernán Agüero


Otros paquetes similares

Otros paquetes similares

  • Staden Package

    • staden.sf.net

    • Integrado, como phred/phrap/consed

  • Sólo ensamblado

    • Celera Assembler

    • TIGR Assembler

    • CAP4 (Paracell)

  • Sólo enmascarado de repeticiones/vector

    • RepeatMasker

  • Sólo basecaller

    • Varios: cada secuenciador tiene el suyo propio

      • Applied Biosystems (ABI): KB Basecaller (provee valores de calidad en las ultimas versiones)

      • Pharmacia (MegaBACE): Cimarron Basecaller

      • LifeTrace: Genome Res (2001) 11: 875

Fernán Agüero


  • Login