I bioinform tica una panor mica
This presentation is the property of its rightful owner.
Sponsored Links
1 / 60

I Bioinformática: una panorámica PowerPoint PPT Presentation


  • 64 Views
  • Uploaded on
  • Presentation posted in: General

I Bioinformática: una panorámica. Andrés Moreira Departamento de Informática UTFSM. ¿Qué es la bioinformática?. De un artículo en Nature : “El desarrollo y aplicación de herramientas computacionales para adquirir, almacenar, organizar, archivar, analizar y visualizar datos biológicos.”.

Download Presentation

I Bioinformática: una panorámica

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


I bioinform tica una panor mica

IBioinformática: una panorámica

Andrés Moreira

Departamento de Informática UTFSM


Qu es la bioinform tica

¿Qué es la bioinformática?

De un artículo en Nature :

“El desarrollo y aplicación de herramientas computacionales para adquirir, almacenar, organizar, archivar, analizar y visualizar datos biológicos.”


Qu es la bioinform tica1

¿Qué es la bioinformática?

Qué dice Wikipedia:

“La bioinformática y la biología computacional involucran el uso de técnicas que incluyen las matemáticas aplicadas, la informática, la estadística, la inteligencia artificial, la química y la bioquímica para resolver problemas biológicos, generalmente a un nivel molecular.”


Qu es la bioinform tica2

¿Qué es la bioinformática?

  • Qué dice Wikipedia:

  • Bioinformática y biología computacional son usados casi como sinónimos.

  • Diferencia:

  • Bioinformática  énfasis en los datos

  • ( más cerca de la definición en Nature )

  • Biología computacional  énfasis en las teorías, hipótesis


Qu es la bioinform tica3

Desarrollo de

algoritmos

Testeo de hipótesis

HCI

Web

Análisis (semi)automatizado

a gran escala

¿Qué es la bioinformática?

MATEMÁTICAS

INFORMÁTICA

BIOLOGÍA


Qu no es la bioinform tica

¿Qué NO es la bioinformática?

Si bien existe amplio campo informático en otras áreas de la biología (por ejemplo, ecología), la palabra bioinformática se suele reservar para cosas cercanas a la biología molecular.

Por otro lado... Al hablar de “biología computacional” casi podría pensarse en “mirada computacional de la biología”. Ese es otro tema, pero no tan descabellado como puede parecer a primera vista.


Qu no es la bioinform tica1

¿Qué NO es la bioinformática?

De hecho es una perspectiva a la que a veces volveremos.

“If you want to understand life, don’t think about vibrant, throbbing gels and oozes, think about information technology.”

Richard Dawkins,

en “The Blind Watchmaker”

Así que no es sólo prestación de servicios... Es una invasión!


Bioinform tica lo bio

Bioinformática: lo “bio”

¿De qué está hecha la vida?

Proteínas:

  • Cadenas formadas por aminoácidos:

    {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}

  • Realizan casi todos los trabajos: estructura, mensajería, catálisis, manejo de energía

Ácidos nucleicos:

  • Cadenas formadas por nucleótidos:

    {a, c, g, t} para DNA, {a, c, g, u} para RNA.

  • Almacenamiento y porte de información, síntesis de proteínas.


Bioinform tica lo bio1

Bioinformática: lo “bio”


Bioinform tica lo bio2

Bioinformática: lo “bio”

augccuaguaug... ...ugugcaacguga

  • aug ccu auu aug ... ... ugu gca acg uga

  • M P S M ... ... C A T stop


Bioinform tica lo bio3

Bioinformática: lo “bio”


Bioinform tica lo bio4

RNAs

tRNA

Bioinformática: lo “bio”


Bioinform tica lo bio5

Es aún más importante en las proteínas: ahí la forma básicamente determina la función.

Bioinformática: lo “bio”

Estructura 1d, 2d, 3d (“primaria”, “secundaria”...)


Bioinform tica lo bio6

Bioinformática: lo “bio”

  • ¿Quién decide qué se copia y se fabrica?

  • Básicamente proteínas, pegándose a un punto apropiado en el DNA (regulación).

  • Eso determinará qué tanto se fabrica de cada gen (el nivel de expresión).

  • Varias proteínas pueden regular un mismo gen, y ese a su vez puede regular a otros  aparecen redes de regulación.


Bioinform tica lo bio7

Un ciclo diario

nivel gen 2

nivel gen 1

Bioinformática: lo “bio”

  • Los niveles de expresión:

  • van cambiando a través del tiempo

  • determinan el tipo de célula

Los cambios en la regulación y expresión de los genes pueden ser tanto o más importantes para la evolución que los cambios en la secuencia del DNA.


Bioinform tica lo bio8

Bioinformática: lo “bio”

  • Una célula hace

  • cosas:

  • Metabolismo

  • Comunicación

  • Reproducción

  • Evolución

  • Así que se agregan fenómenos a otros niveles: de organismo multicelular, de linaje que evoluciona, etc etc


Bioinform tica perspectiva hist rica

Bioinformática: perspectiva histórica

1953: Watson & Crick descifran la estructura del DNA

En las décadas siguientes, se aprende sobre el código genético.

Más tarde, se empiezan a leer genes. Desde hace un tiempo, genomas.


Bioinform tica perspectiva hist rica1

Bioinformática: perspectiva histórica

Número de letras

___________________________________________________________

1971 Se publica la primera secuencia de DNA 12

1977 PhiX174 5,375

1982 Lambda 48,502

1992 Cromosoma III de la levadura 316,613

1995Haemophilus influenza 1,830,138

1996Saccharomyces 12,068,000

1998C. elegans 97,000,000

2000D. melanogaster 120,000,000

2001H. sapiens (borrador) 2,600,000,000

2003H. sapiens 2,850,000,000


Bioinform tica perspectiva hist rica2

Celera Genomics

Consorcio Público (HGP)

Bioinformática: perspectiva histórica

  • Proyecto de genoma humano:

  • Terminado el 2001

  • Se pensó que iba atrasado.


Bioinform tica perspectiva hist rica3

Bioinformática: perspectiva histórica

Simultáneamente, va creciendo el número de secuencias de proteínas que se conocen.

Y el número de estructuras de proteínas.

Y una serie de otros tipos de información.

Y la cantidad de publicaciones.

Bases de datos debases de datos.


Bioinform tica perspectiva hist rica4

Bioinformática: perspectiva histórica


Bioinform tica perspectiva hist rica5

Bioinformática: perspectiva histórica

  • Pronto aparecieron los repositorios de información.

  • Paralelamente, algoritmos crecientemente complejos:

    • ensamblado de genomas

    • detección de genes en las secuencias

    • alineamiento de secuencias

    • predicción de estructura 2d y/o 3d


Bioinform tica perspectiva hist rica6

Bioinformática: perspectiva histórica

  • Además de aumentar el volumen, aumentó la complejidad:

    • Genes escritos en trozos

    • Genes con más de un producto

    • Interacciones complejas de regulación

    • Genes saltarines

    • RNA con funciones “propias de proteínas”


Bioinform tica perspectiva hist rica7

Bioinformática: perspectiva histórica

  • Un torrente de información que ha crecido de manera exponencial, cada vez con más matices y más complejidad.

  • No cesan de aparecer cosas nuevas, ya sea por disponibilidad de datos o por nuevos descubrimientos:

    • Metagenómica

    • Epigenética

    • Variación en la población (SNPs)

    • interferencia de RNA (microRNA)

    • ...


Bioinform tica perspectiva hist rica8

Bioinformática: perspectiva histórica

  • Se ha ido refinando y especializando el nivel de las aplicaciones computacionales:

  • De repositorios, a bases de datos anotadas, a protocolos para interoperabilidad

  • De hacer regresiones lineales, a construir modelos complejos vía machine learning

  • De gráficos simples a minería de datos

  • De revistas en papel, a textos online semánticamente anotados (y cuando no, procesamiento de lenguaje natural)

  • Pero: Los datos nos llevan la delantera.


Bioinform tica perspectiva hist rica9

Bioinformática: perspectiva histórica


I bioinform tica una panor mica

Bioinformática: perspectiva histórica

  • Toda la biología se ha “molecularizado”, y por lo tanto, “informatizado”: la biología es hoy una “ciencia de la información”

  • Esto afecta toda la investigación en ámbito biológico, incluyendo la agropecuaria, ecológica, etc.

  • La biotecnología es una industria en crecimiento, y no sólo en el mundo desarrollado.


Bioinform tica chile

  • Biolixiviacion : se logró aumentar la velocidad con que la bacteria Thiobacillus ferrooxidans recupera cobre a partir de desechos de la explotación primaria.

Bioinformática: Chile

  • Chile produce madera, salmones, productos agrícolas....

  • Pero incluso para el cobre la bioinformática resulta importante:


Problemas cl sicos siempre vigentes

Problemas clásicos (siempre vigentes)

  • Ensamblar DNA:

    • dada una serie de fragmentos secuenciados, reconstruir el genoma completo.

  • Una versión aún más complicada, ahora que existe la metagenómica:

    • dada una serie de fragmentos provenientes de muchos genomas distintos, reconstruir cada uno (o por lo menos clasificar bien los fragmentos!)


Problemas cl sicos siempre vigentes1

--T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC

| || | || | | | ||| || | | | | |||| |

AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C

10 20 30 40 50 Sec. 1 KVYGYDSNIHKCVYCDNAKRLLTVKKQPFEFINIMPEKGV---FDD—EKIAELLTKLGR ..:: .. :: : .: :: : .:.: .. . . :: ::. : .. . Sec. 2 EIYGIPEDVAKCSGCISAIRLCFEKGYDYEIIPVLKKANNQLGFDYILEKFDECKARANM

10 20 30 40 50 60

Problemas clásicos (siempre vigentes)

Alineamiento de secuencias (DNA o proteínas):

Encontrar la ruta más corta que pudo convertir una secuencia en otra


Problemas cl sicos siempre vigentes2

Problemas clásicos (siempre vigentes)

  • Se detectan relaciones de parentesco, o eventualmente similitud funcional

  • Dada una secuencia de consulta, se encuentran las más cercanas en una base de datos

    Alineamiento múltiple: para familias de secuencias


Problemas cl sicos siempre vigentes3

Problemas clásicos (siempre vigentes)

También se hace alineamiento de estructuras (para reconocer familias de proteínas)


Problemas cl sicos siempre vigentes4

Problemas clásicos (siempre vigentes)

  • Búsqueda en secuencias:

  • Inicialmente, encontrar genes (secuencias

  • que codifican proteínas)

  • En el genoma humano, son el 3%.

  • Con estadística y un poco más, se puede hacer bastante.

  • Complicación:

    • hay otras cosas que encontrar, y son más sutiles

    • redes neuronales, modelos markovianos, largo etc


Problemas cl sicos siempre vigentes5

Problemas clásicos (siempre vigentes)

  • Predicción de estructura bi- y tridimensional:

  • No es trivial ni siquiera para RNA; para proteínas, es extremadamente difícil.

  • Incluso una simplificación

  • extrema es NP

  • Y, por otro lado, es vital

  • (para discernir la función,

  • relaciones de interacción,

  • parentezcos...)


Problemas

Problemas

  • Detección de la expresión :

  • ¿Bajo qué circunstancias se expresa un gen?

  • ¿Qué gen se expresa bajo una circunstancia dada?

  • ¿Cuáles se expresan siempre juntos (o vinculados por algún patrón)?

  • Una tipo de experimento que se ha vuelto popular: microarrays


I bioinform tica una panor mica

DATOS

INFORMACION


Problemas1

Problemas

  • Detección de regulación y construcción de redes: ¿Quién regula a quién?

  • Los microarrays también pueden ayudar (como series de tiempo: se saca “la foto” en momentos distintos)

  • Determinando las redes de regulación es posible además analizarlas:

    • ¿Qué tan robustas son?

    • ¿Cómo pueden evolucionar?

    • ¿Cómo se las puede intervenir?


Problemas2

Problemas


Problemas3

Se pueden aproximar los estados mediante variable booleanas (binarias): encendido o apagado

El resultado será un grafo en cuyos nodos se ponen funciones lógicas. Ha sido un modelo muy productivo.

Problemas


Problemas4

Problemas


Problemas5

Problemas

  • Modelamiento y simulación:

  • Dinámica celular

  • Morfogénesis

  • Interacción en organismos multicelulares (o entre unicelulares)

  • Evolución

  • ...


Datos de secuencias

Datos de secuencias

  • GenBank, en el National Center of Biotechnology Information, National Library of Medicine, EEUU (nucleotidos y proteinas) http://www.ncbi.nlm.nih.gov/Entrez

  • European Molecular Biology Laboratory (EMBL) Outstation en Hixton, England http://www.ebi.ac.uk/embl/index.html

  • DNA DataBank of Japan (DDBJ) en Mishima, Japan http://www.ddbj.nig.ac.jp/

  • Protein International Resource (PIR) en la National Biomedical Research Foundation, EEUU http://www-nbrf.georgetown.edu/pirwww/

  • SwissProt (secuencias de proteínas) Swiss Institute for Experimental Cancer Research, en Epalinges/Lausanne http://www.expasy.ch/cgi-bin/sprot-search-de


Datos de secuencias1

Datos de secuencias


Datos de secuencias2

Datos de secuencias


Datos de secuencias3

Datos de secuencias


Datos de secuencias4

Datos de secuencias


Datos de secuencias5

Datos de secuencias


Datos de estructuras

Datos de estructuras

  • RCSB Protein Data Bank (PDB):

    www.rcsb.org

  • BioMagResBank:

    http://www.bmrb.wisc.edu/

  • MMDB: http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

  • RNA:

    http://www.rnabase.org/


Datos de estructuras pdb

Datos de estructuras: PDB


Datos de estructuras pdb1

Datos de estructuras: PDB


Datos

Datos

  • Datos...

  • de tipos de estructuras de proteínas (SCOP, CATH, Dali, VAST)

  • de dominios funcionales de proteínas

  • de familias de RNAs (RNABASE)

  • de redes de regulación genética

  • de redes de interacción de proteínas

  • de literatura (PubMed)

  • de bases de datos

  • ...

  • También bases de datos especializadas en organismos (moscas, ratón, levadura...). Y muchas más.


Datos1

Datos

Niveles de expresión:


Cruce de datos

Cruce de datos


Cruce de datos1

Cruce de datos


Datos ndices

Datos: Índices


Datos ejemplos

Datos: ejemplos

FASTA

Un comentario, seguido por la secuencia

>gi|1040960|gb|U35641.1|MMU35641 Mus musculus Brca1 mRNA, complete cds GGCACGAGGATCCAGCACCTCTCTTGGGGCTTCTCCGTCCTCGGCGCTTGGAAGTACGGATCTTTTTTCT CGGAGAAAAGTTCACTGGAACTGGAAGAAATGGATTTATCTGCCGTCCAAATTCAAGAAGTACAAAATGT CCTTCATGCTATGCAGAAAATCTTAGAGTGTCCGATCTGTTTGGAACTGATCAAAGAACCTGTTTCCACA AAGTGTGACCACATATTTTGCAAATTTTGTATGCTGAAACTTCTTAACCAGAAGAAAGGGCCTTCACAAT GTCCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAGGGAAGCACAAGGTTTAGTCAGCTTGCTGA AGAGCTGCTGAGAATAATGGCTGCTTTTGAGCTTGACACGGGAATGCAGCTTACAAATGGTTTTAGTTTT TCAAAAAAGAGAAATAATTCTTGTGAGCGTTTGAATGAGGAGGCGTCGATCATCCAGAGCGTGGGCTACC GGAACCGTGTCAGAAGGCTTCCCCAGGTCGAACCTGGAAATGCCACCTTGAAGGACAGCCTAGGTGTCCA GCTGTCTAACCTTGGAATCGTGAGATCAGTGAAGAAAAACAGGCAGACCCAACCTCGAAAGAAATCTGTC TACATTGAACTAGACTCTGATTCTTCTGAAGAGACAGTAACTAAGCCAGGTGATTGCAGTGTGAGAGACC


Datos ejemplos1

Datos: ejemplos

SWISS-PROT

Incluye anotación y otras informaciones (al igual que Genbank)

ID BRC1_MOUSE STANDARD; PRT; 1812 AA.

AC P48754; Q60957; Q60983;

DT 01-FEB-1996 (Rel. 33, Created)

DT 01-NOV-1997 (Rel. 35, Last sequence update)

DT 16-OCT-2001 (Rel. 40, Last annotation update)

DE Breast cancer type 1 susceptibility protein homolog.

GN BRCA1.

OS Mus musculus (Mouse).

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;

OC Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.

OX NCBI_TaxID=10090;

RN [1]

RP SEQUENCE FROM N.A.

RC STRAIN=C57BL/6; TISSUE=Embryo;

RX MEDLINE=96177659; PubMed=8634697;

RA Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.;

RT "Mouse Brca1: localization sequence analysis and identification of

RT evolutionarily conserved domains.";

RL Hum. Mol. Genet. 4:2265-2273(1995).


Datos ejemplos2

Datos: ejemplos

ASN.1: un estándar internacional

  • Formato semiestructurado

  • Es el formato base para GenBank

Seq-entry ::= set {

level 1 ,

class nuc-prot ,

descr {

title "Mus musculus Brca1 mRNA, and translated products" ,

source {

org {

taxname "Mus musculus" ,

db {

{

db "taxon" ,

tag

id 10090 } } ,

orgname {

name

binomial {

genus "Mus" ,

species "musculus" } , …


Datos ejemplos3

Datos: ejemplos

XML

<?xml version="1.0"?>

<!DOCTYPE GBSeq PUBLIC "-//NCBI//NCBI GBSeq/EN" “http://www.ncbi.nlm.nih.gov/dtd/NCBI_GBSeq.dtd">

<GBSet>

<GBSeq>

<GBSeq_locus>MMU35641</GBSeq_locus>

<GBSeq_length>5538</GBSeq_length>

<GBSeq_strandedness value="not-set">0</GBSeq_strandedness>

<GBSeq_moltype value="mrna">5</GBSeq_moltype>

<GBSeq_topology value="linear">1</GBSeq_topology>

<GBSeq_division>ROD</GBSeq_division>

<GBSeq_update-date>18-OCT-1996</GBSeq_update-date>

<GBSeq_create-date>25-OCT-1995</GBSeq_create-date>

<GBSeq_definition>Mus musculus Brca1 mRNA, complete cds</GBSeq_definition>

<GBSeq_primary-accession>U35641</GBSeq_primary-accession>

<GBSeq_accession-version>U35641.1</GBSeq_accession-version>


Datos2

Datos

  • SBML: System Biology Markup Language, representa modelos de reacciones bioquímicas

  • OBO: Open Biomedical Ontologies

  • Gene Ontology: la más conocida de las ontologías biológicas; describe los genes y productos de genes de cualquier organismo


  • Login