1 / 34

Información biológica en formato electrónico Bases de datos

Información biológica en formato electrónico Bases de datos. Un breve repaso histórico. La aparición de las secuencias completas del genoma humano y cientos de otros genomas es el producto de un siglo de investigación dirigido a comprender la información genética .

peri
Download Presentation

Información biológica en formato electrónico Bases de datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Información biológica en formato electrónicoBases de datos

  2. Un breverepasohistórico La aparición de lassecuenciascompletas del genomahumano y cientos de otrosgenomases el producto de un siglo de investigacióndirigido a comprender la informacióngenética. Comienzos del siglo XX: redescubrimiento de lasleyes de Mendel Durante el primer cuarto de siglo, la biologíadescubrióque la base celular de la informacióneran los cromosomas Durante el segundocuarto de siglo, se descubrióque la base molecular de la información era el DNA Durante el tercercuarto de siglo, se definieron los mecanismosqueutilizanlascélulaspara leer estainformación y se desarrollaronlasherramientas de DNA recombinante Durante el ultimo cuarto de siglo, los biólogos se volcaron a colectarinformacióngenética - primero de genes, luego de genomascompletos.

  3. En queestamos hoy … • El resultado: de serunacienciapuramente experimental (con base en el laboratorio) la biologíaestásiendotransformada en unaciencia de la información • La informaciónacumulada no sóloesinformacióngenética (secuencias de DNA) • expresión de RNAs • interacción entre proteínas • estructurastridimensionales • Anulaciónsistemática de genes (knockouts, RNAi) que produce información de fenotipos • … • Cadavezmásdiversosestudioscomienzan con el análisis de bases de datosparaluegoformularhipótesis o diseñarexperimentos • Cadavezmás el trabajo de laboratoriotermina en la acumulación de coleccionesmasivas de datosquedebenserluegoanalizados

  4. Paradigma central de la bioinformática Genetic Information Molecular Structure Biochemical Function Symptoms (phenotype)

  5. Bases de datos: introducción: conceptosbásicos Quéesuna base de datos? Unacolección de datos Decisión del usuario. Diseño de la base de datos. Cómocolecciono los datos? Puedo usar: Procesador de texto? (Word) Si. Permite sólo búsqueda y ordenamiento simples. Planilla de Cálculo? (Excel) También. Como los datos están en columnas independientes, se puede ordenar en formas más complejas. Las búsquedas siguen siendo simples.

  6. Introducción: conceptosbásicos: registros • Unacolección de registros (records). • Cadaregistrotienevarioscampos. • Cada campo contieneinformaciónespecífica. • Cada campo contienedatos de un tipodeterminado. • Ej: dinero,texto, númerosenteros, fechas, direcciones • Cadaregistrotieneunaclave primaria. Un identificadorúnicoque define al registro sin ambigüedad. Planilla Versión simple de una base de datos

  7. Tipos de datos • Cada campo de una base de datos contiene un tipo particular de datos • 021204 • Es un numero? • Es texto? • Es una fecha? • Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204 • Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando. • Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003) • Si es un numero: 021203 < 211203 • Si es texto: 021203  211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)

  8. Tipos de datos Numericos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Logicos (boolean) = verdadero / falso Geometricos (punto, linea, circulo, poligonos, etc.)

  9. Bases de datos: conceptosbásicos: clave primaria gi = Genbank Identifier: Clave única : Clave primaria Cambia con cadaactualización del registrocorrespondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version esequivalente al gi(representa un identificadorúnico) Ejemplo: AF405321.2 Accession: AF405321 Version: 2

  10. Bases de datos: bases de datosrelacionales Base de datosrelacional: Normalizaruna base de datospara sub-elementosrepetidos, repartiendola en bases de datosmenores, relacionadas a través de un identificadorúnico (clave primaria).

  11. Bases de datos: distribucion de la informacion gi annotation 5693 Trypanosoma cruzi chromosome 3, ORF 1234, similar to gi|12345|AF934567 caseine kinase (Candida albicans) 5694 Candida albicans hypothetical protein in region 21922..24568 5695 Sarcocystis cruzi 16SRNA gene 5696 Lutzomyia cruzi cytochrome b; best similarity to gi|1234568 gi Organism Annotation similar to 5693 Trypanosoma cruzi Chromosome 3, ORF 1234 12345 5694 Candida albicans Hypothetical protein in region 21922..24568 5695 Sarcocystis cruzi 16S RNA gene 786512 5696 Lutzomyia cruzi Cytochrome b 1234568

  12. Búsquedas en una base de datos: índices • Para facilitarlasbúsquedas en una base de datos, se construyeníndices. • Un índiceesunalista de claves primariasasociadas a un determinado campo (o grupo de campos)

  13. Indices (cont) • Indexar la columna ‘def’ Un ejemplomáscomplejo: buscartodos los records quecontengan la palabra ‘kinase’ en la descripción de la secuencia

  14. Indexarescostoso • El proceso de indexaciónescostoso en términoscomputacionales, pero se realizaunaúnicavez (en realidadcadavezque se actualizan los datos) • Desde el punto de vista de la base de datos, los índices no son otracosaquenuevastablasrelacionadas con la tablaquecontiene el campo indexado • Ejemplomásobvio: buscadores de páginas de internet (Google, Altavista). Visitanpáginas e indexan los términosqueencuentran • kewyword: url1, url2, url3, url4, etc.

  15. Búsquedas en bases de datos: búsquedasindexadas Importante:no se busca en el total de los datos disponibles, sino sobre un subset pre-computado. • Buscadores de páginas en internet • PubMed / Entrez/ SRS • BLAST

  16. Schemas La distribución de los datos en camposdentro de unatabla y de lasrelaciones entre tablas y suscamposes lo que se llama el diseño o schema

  17. Schemas (cont)

  18. RDBMS • Relational Database Management Systems • Comerciales • Oracle, Sybase • Open source, gratuitos • PostgreSQL, MySQL • Todosusan SQL (standard query language) para • creartablas, índices, etc. • ingresardatos • consultar

  19. Búsquedas simples Los motores de búsqueda ofrecen búsquedas simples No imponen restricciones El usuario tipea palabras libremente Usan estrategias para intentar “adivinar” la intención del usuario (sobre qué campo de la base de datos buscar)

  20. Ejemplo: term mapping - Entrez (PubMed) • Entrezbusca en unaserie de listasparaversi la palabraqueingresaron se encuentra en alguna • MeSH (Medical Subject Headings):vocabulariocontroladoutilizadoparaindexarartículos en PubMed. • Journals:nombrecompleto del journal, abreviaturasusadas en MEDLINE y números ISSN. • Lista de frases:cientos de miles de frasesgeneradas a partir de MeSH y otrosvocabularioscontroladossimilares. • Indice de autores:apellido e iniciales. • Stopwords:palabrascomunes, presentes en casitodos los registros de la base de datos (a, an, by, of, the … )

  21. Búsquedas simples: pros / cons • Ventajas • rápidas de formular • no hay que leer el manual • ni hacer un curso  • Desventajas • poco selectivas

  22. Búsquedasavanzadas • Presuponen un ciertoconocimientosobre la organizaciónsubyacente de los datos • Hay queespecificarsobrequécamposbuscar:  hay queconocer los campos • Entrez: se especifican entre corchetes • Tags predefinidos (hay queconocerlos) • Escherichia coli[organism] • review[publication type] • attenuator[feature key] • SRS:formularioavanzado (no hay queconocertérminos o tags)

  23. Búsquedasavanzadas: Entrez • Entrezproveeademás • Límites:especie de formularioavanzadoque les permitelimitar la búsqueda a un campo determinado, sin tenerqueconocer los tags) • History:unahistoria de lasbúsquedasque van realizando. En cualquiermomentopuedencombinarbúsquedas o volversobrealguna de ellas • Preview/Index: les permiteprobarunabúsqueda (preview) y ver el número de registrosqueselecciona o ver los índices y el número de registrosasociados a cadauno de ellos • Details:permiteanalizar la traducciónquerealizóEntrez de la búsquedaquerealizamos (uso de sinónimos, límites, etc)

  24. Operadoreslógicos • En búsquedas simples o avanzadassiempretienen a disposiciónoperadoreslógicosparaencadenartérminos • AND (unión) • human AND genome • +human +genome • human && genome • OR (intersección) • human OR genome • human || genome • NOT (subconjunto) • human NOT genome

  25. Orden de los términos en un query • El orden de los términosesimportante • Un query se evalúa de izquierda a derecha • human NOT genome no es lo mismoquegenome NOT human • Si el query tienemuchostérminospuedenforzar el orden de evaluaciónusandoparéntesis • human AND cancer AND (cell OR science OR nature) • casein kinase NOT (human OR mouse)

  26. Bases de datosbiológicas: DNA • Nucleotide databases: • Genbank: International Collaboration • NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia) • Organism specific databases • FlyBase • ChickBASE • pigbase • SGD (Saccharomyces Genome Database)

  27. Bases de datosbiológicas: proteínas • Protein Databases: • NCBI: • Genpept: Translated Proteins from Genbank Submissions • EMBL • TrEMBL: Translated Proteins from EMBL Database • SwissProt: • recibesecuenciaspeptídicas • cura y anotasecuenciasprovenientes de TrEMBL • (Gratuitaparausoacadémico. Restriccionessobre los descubrimientoshechosutilizando la base de datos. La versión de 1998 esgratuita y libre de todaslasrestricciones.) • http://www.expasy.ch (últimaversión no-gratuita) • NCBI tiene la últimaversióngratuita.

  28. Bases de datosbiológicas: estructura • Structure databases: • PDB: Protein structure database. • http://www.rscb.org/pdb/ • MMDB: NCBI’s version of PDB with entrez links. • http://www.ncbi.nlm.nih.gov • SCOP: structural classification of proteins • family, superfamily, fold • CATH: structural classification of proteins • class, architecture, topology, homology • FSSP: fold classification based on structure-structure alignment • Genome Mapping Information: • http://www.il-st-acad-sci.org/health/genebase.html • NCBI(Human) • Genome Centers: • Stanford, Washington University, UCSC • Research Centers and Universities

  29. Bases de datosbiológicas: literatura • Literature databases: • NCBI: Pubmed: All biomedical literature. • www.ncbi.nlm.nih.gov • Abstracts and links to publisher sites for • full text retrieval/ordering • journal browsing. • Publisher web sites. • Pathways Database: • KEGG: Kyoto Encyclopedia of Genes and Genomes: www.genome.ad.jp/kegg/kegg/html

  30. Bases de datosbiológicas: GenBank • Es un Banco: no se intentaunificardatos. • No se puedenmodificarlassecuencias sin el consentimiento del autor (submitter). • No se intentaunificar (puedehabermás de unasecuenciapara un locus/gen). • Puedehaberregistros de diversascalidades de secuencia y diferentesfuentes ==> Se separan en variasdivisiones de acuerdo a: • Secuencias de altacalidad en divisionestaxonómicas. • PRI -> Primates • MAM -> Mamíferos • INV -> Invertebrados • Secuencias de bajacalidad en divisionesuso-específicas. • GSS -> Genome Sequence Survey • EST -> Expressed Sequence Tags • HTG -> High Troughput Sequencing (unfinished contigs, BACs, cosmids, chromosomes).

  31. GenBank • Redundante • Con errores • Dificil de actualizar • Para podercorregir, mejorar y manteneractualizada la anotación de los registros, el NCBI creóRefSeq (coleccióncurada de registros de GenBank) • toma records de GenBank y los actualiza/corrije • unificaparareducirredundancia • Accession numbers del tipo XX_123456

  32. Bases de datosprimarias • Una base de datosprimariaes un repositorio de datosderivados de un experimento o de conocimientocientífico. • Genbank(Repositorio de secuenciasnucleotídicas) • Protein DB, Swissprot • PDB • Pubmed(literatura) • Genome Mapping • Kegg(Kyoto Encyclopedia of Genes and Genomes, base de datos de víasmetabólicas)

  33. Bases de datossecundarias • Una base de datossecundariacontieneinformaciónderivada de otrasfuentes (primarias, entre otras). • Refseq (Coleccióncurada de GenBank en NCBI) • Unigene (Clustering de ESTs en NCBI) • Las bases de datosorganismoespecíficas son en general unamezcla entre primaria y secundaria.

More Related