1 / 51

Organización Física de Datos

Organización Física de Datos. Dr. Inés Fernando Vega López. Temario. Organización de archivos Administración de archivos Orden interno de archivos Índices. Organización lógica del SABD. Consultas. Opt. y ejec. de consultas. Operadores relacionales. Métodos de acceso.

penney
Download Presentation

Organización Física de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Organización Física de Datos Dr. Inés Fernando Vega López Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  2. Temario • Organización de archivos • Administración de archivos • Orden interno de archivos • Índices Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  3. Organización lógica del SABD Consultas Opt. y ejec. de consultas Operadores relacionales Métodos de acceso Administrador del buffer Administrador de espacio en disco BD Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  4. Organización de Archivos • Una base de datos se organiza como un conjunto de relaciones • ¿Cómo se almacenan estas relaciones en disco? • Archivos de registros • El usuario se interesa por registros, no por páginas • Un conjunto de registros se almacena en una o mas páginas • Estas páginas se organizan en archivos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  5. Registros y páginas • El concepto de página es adecuado para interactuar con el disco • Un archivo como una secuencia de páginas • El usuario no está interesado en páginas • El usuario está interesado en registros • Las capas de alto nivel en el SABD deben usar la abstracción de registro • Una página como un conjunto de registros Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  6. Estructura de páginas • Una página es un conjunto de registros • Registros de longitud fija • Registros de longitud variable • Una página como un conjunto de ranuras • Los registros se depositan en estas ranuras • Se tiene acceso a un registro usando el número de ranura y el identificador de la página donde se depositó • rid = <pid, sid> Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  7. Estructura de registros • Longitud fija • El número de campos en cada registro es el mismo • El tamaño de cada campo es el mismo para todos los registros • La longitud de cada campo se almacena en el catalogo del sistema • Longitud variable • El tamaño de los campos puede variar en cada registro Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  8. C1 C2 C3 C4 C5 C1 C2 C3 C4 C5 Registros de longitud fija: estructura L1 L2 Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  9. Registros de longitud variable • En el modelo relacional, todos los registros tienen el mismo número de campos • Si varía la longitud de un registro es sólo porque así lo hace la longitud de un campo • Dos posibles organizaciones • Con delimitadores • Un arreglo de desplazamientos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  10. C1 $ C3 C2 $ $ C1 $ C3 C2 $ $ Registros de longitud variable • Usando delimitadores: ¿Cómo encontrar el campo 3? Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  11. C1 C3 C4 C2 Registros de longitud variable • Arreglo de desplazamientos: ¿Cómo encontrar el campo 3? Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  12. Registros de longitud variable • Algunas complicaciones • Al modificar la información contenida en un campo, la longitud del registro se modifica • Al modificar un registro éste podría no caber en su página • El tamaño de un registro podría ser tal, que fuese necesaria más de una página para almacenarlo. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  13. Pág. con registros de longitud fija • Las ranuras son uniformes • Ordenadas en secuencia • En cualquier momento hay ranuras vacías y ranuras ocupadas • ¿Cómo se localiza una ranura vacía? • ¿Cómo se localiza cada registro en la página? • Dos formas de organizar los registros • Registros empaquetados • Sin empacar Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  14. N Pág. con registros de longitud fija Registros empaquetados ¿Qué pasa cuando se eliminan registros? Ranura 1 Ranura 2 Ranura N Espacio libre Encabezado de la página rid = <pid, sid> Número de registros Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  15. M 0 0 1 1 1 1 0 Pág. con registros de longitud fija Registros sin empacar, mapa de bits ¿Qué pasa cuando se eliminan registros? Ranura 1 Ranura 2 Espacio libre Encabezado de la página Ranura M rid = <pid, sid> Número de registros Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  16. Pág. con registros de longitud variable • Ya no existe un número predeterminado de ranuras • Al insertar un nuevo registro, hay que buscar un hueco (ranura) del tamaño justo para no desperdiciar espacio • Fragmentación • Al eliminar un registro hay que compactar para que el espacio disponible sea contiguo Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  17. Pág. con registros de longitud variable • La forma de administrar estos registros es mediante un directorio • El directorio permite mover los registros sin afectar su rid (<pid, sid>) • Cada elemento del directorio es un par (desplazamiento, longitud) que indican la posición y el tamaño del registro. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  18. N 8 9 Pág. con registros de longitud variable Página i rid = (i,N) rid = (i,1) Espacio libre Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  19. Temario • Organización de archivos • Administración de archivos • Orden interno de archivos • Índices Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  20. Administración de archivos • Las capas de bajo nivel manejan páginas • Capas de alto nivel manejan registros • Los registros se organizan en páginas • ¿Cómo se organizan las páginas en archivos? • La organización más básica es considerar que los registros no siguen un orden en particular. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  21. Archivos Heap • Archivos sin un orden en particular • Operaciones válidas • Crear y eliminar archivos • Crear registros • Leer todos los registros de un archivo • Leer, eliminar y actualizar registros, dado su rid • Dado un rid, se debe poder localizar la página correspondiente Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  22. Manejo de archivos • Por razones de eficiencia, un SABD normalmente no utiliza el sistema de archivos del sistema operativo. • Hay que llevar un control de cuales páginas corresponden a cual archivo • Hay que llevar un control de páginas con espacio disponible para insertar nuevos registros. • Alternativas • Listas ligadas • Directorio de páginas Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  23. Listas ligadas Página de datos Página de datos Páginas con espacio disponible Página encabezado Página de datos Página de datos Páginas llenas Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  24. Listas ligadas • Consideraciones • Cuando se usan registros de longitud variable, es muy probable que la mayoría de las páginas se encuentren en la lista de páginas con espacio disponible. • Cuando se inserta un nuevo registro se debe seguir la lista hasta encontrar una página con suficiente espacio disponible. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  25. Directorio de páginas Página de datos Página encabezado Página de datos Página de datos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  26. Directorio de páginas • Beneficios: • No hay necesidad de revisar cada página hasta encontrar una con espacio disponible • Las páginas de encabezado contienen información sobre el espacio disponible en cada página. • El directorio de páginas es parte del archivo heap. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  27. Temario • Organización de archivos • Administración de archivos • Orden interno de archivos • Índices Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  28. Orden interno de archivos • La forma de organizar los registros en un archivo cuando el archivo se almacena en disco • La eficiencia de las operaciones sobre archivos depende de la organización de estos. • Si deseamos una lista alfabética de nuestros empleados, entonces la organización más conveniente sería que los registros estuviesen ordenados por nombre. • Si queremos encontrar a todos los empleados cuyo salario se encuentre en determinado rango, entonces lo mejor es que el orden de los registros en el archivo sea determinado por el sueldo. • ¿Qué pasa si queremos realizar ambas consultas de forma eficiente? Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  29. Orden interno de archivos • La eficiencia de las operaciones sobre archivos se mide utilizando un modelo de costos. • Modelo de costos • ¿Cuanto cuesta evaluar la operación x en un archivo organizado de forma y? Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  30. Modelo de Costos • ¿Cómo se compara la eficiencia de diferentes organizaciones de archivo? • Operaciones en archivos • Leer todos los registros • Búsqueda por rangos • Búsqueda por igualdad • Insertar registros • Borrar registros Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  31. Modelo de costos • Notación • Un archivo tiene B páginas de datos • Cada página contiene R registros • El tiempo promedio para realizar una operación de E/S es D • El tiempo para procesar un registro es C • El tiempo necesario para evaluar una función de hash es H Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  32. Modelo de costos • Valores típicos (en 1998) • D = 25 milisegundos • C y H = 1 a 10 microsegundos • Las operaciones de E/S dominan en la función de costo • Este dominio se incrementa con el tiempo • Los procesadores se vuelven más rápidos • También los discos duros, pero a un ritmo mucho más lento. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  33. Orden interno de archivos • Modelo de costos • Cuanto cuesta evaluar la operación x en un archivo organizado de forma y • Existen tres formas de organizar a los registros de un archivo • Archivos Heap (sin orden) • Archivos ordenados por algún campo • Archivos con una función de Hash en algún campo Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  34. Archivos sin orden (Heap) • Leer todos los registros B(D + RC) • Búsqueda por rango B(D + RC) • Búsqueda de igualdad 0.5B(D + RC) • Insertar registros (al final del archivo) 2D + C • Eliminar registros 0.5B(D + RC) + C + D Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  35. Archivos ordenados (llave de búsqueda) • Leer todos los registros B(D + RC) • Búsqueda por rango (log2B)D + (log2R)C + X(D + RC) • Búsqueda por igualdad (log2B)D + (log2R)C • Insertar registros (manteniendo el orden) (log2B)D + (log2R)C + 2(0.5B(D + RC)) • Eliminar registros (y compactar) (log2B)D + (log2R)C + 2(0.5B(D + RC)) Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  36. Archivos Hashed (picados) • La función de hash se define con respecta a la llave de búsqueda • Llave de búsqueda  llave primaria • Las páginas de estos archivos se agrupan por cubos buckets • Los cubos buckets se pueden desbordar • Los registros se buscan en solamente en el cubo bucket definido por la función de hash. Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  37. Archivos Hashed • Leer todos los registros (ocupación de 80%) 1.25B(D + RC) • Búsqueda por igualdad H + D + 0.5RC • Búsqueda por rango 1.25B(D + RC) • Insertar registro (H + D) + C + D • Eliminar registro (H + D + 0.5RC) + C + D Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  38. Orden interno de archivos: resumen Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  39. Temario • Organización de archivos • Administración de archivos • Orden interno de archivos • Índices Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  40. Índices ¿Qué son? • Un archivo auxiliar que se usa para acelerar las operaciones de búsqueda de registros en el archivo de datos • Un conjunto de registros con una forma eficiente de localizar todos los registros, en el archivo de datos, que satisfacen una condición en su llave de búsqueda (k) Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  41. Índices • Las páginas de un índice se organizan de forma tal que hacen posible encontrar eficientemente la ubicación de un registro de datos en particular • A las distintas organizaciones que puede adoptar un índice se le denominan métodos de acceso. • B+tree • Hashing • R-tree Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  42. Índices • Algunas preguntas: • ¿Cuál es la mejor forma de organizar los registros de un índice de manera que éste permita la recuperación eficiente de registros con respecto a una llave de búsqueda? • ¿Qué información debemos almacenar? Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  43. Registros en el índice • Un registro k* en el índice nos permite recuperar uno o más registros del archivo de datos cuyo valor en el atributo llave sea k • Alternativas: • El registro en el índice es el registro de datos • El registro en el índice es el par k, rid • El registro en el índice es el par k, rid-list Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  44. López, 44, 3000 3000 Pérez, 40, 6003 3000 García, 44, 5004 5004 h h 5004 Castro, 25, 3000 Ríos, 39, 4003 Beltrán, 54, 5007 4003 5007 Juárez, 22, 3001 6003 Rocha, 50, 5004 3001 Índices Edad Salario 00 0 01 1 10 Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  45. Propiedades de los índices • Agrupados (Clustered) • El orden de los registros en el archivo de datos es igual o casi igual que el orden de los registros en el índice • Sólo puede existir uno de estos • No agrupados (Unclustered) • El resto de los índices no pueden ser del tipo clustered • Pueden existir tantos como sea necesario Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  46. Índice del tipo Clustered Registros de control Registros índice Archivo de datos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  47. Índices del tipo Unclustered Registros de control Registros índice Archivo de datos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  48. Propiedades de los índices • Denso • El índice tiene al menos un registro por cada valor distinto de la llave de búsqueda • Disperso • El índice tiene un registro por cada página del archivo de datos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  49. Beltrán 9 Juárez, 44, 3000 22 Juárez López, 40, 6003 25 Ríos Pérez, 31, 5004 31 40 Beltrán, 25, 3000 Castro, 9, 4003 44 García, 54, 5007 50 54 Ríos, 22, 3001 Rocha, 50, 5004 Índices densos y dispersos Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

  50. Propiedades de los índices • Índice primario • Un índice definido en un conjunto de atributos que incluye a la llave primaria • No tiene registros repetidos • Índice secundario • El que no es primario / tiene registros repetidos • Único • Cuando la llave de búsqueda incluye a una llave candidata Universidad Autónoma de Sinaloa Maestría en Informática Aplicada

More Related