1 / 54

Cap. 5: Armazenamento de registros e Organização de Arquivos

Cap. 5: Armazenamento de registros e Organização de Arquivos. 5.1. Tipos de armazenamento 5.2. Dispositivos de armazenamento secundário 5.3. Acesso paralelizado: tecnologia RAID 5.4. Buferização (cache) de blocos 5.5. Alocação de registros de arquivo em disco 5.6. Operações em arquivos

apria
Download Presentation

Cap. 5: Armazenamento de registros e Organização de Arquivos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cap. 5: Armazenamento de registros e Organização de Arquivos • 5.1. Tipos de armazenamento • 5.2. Dispositivos de armazenamento secundário • 5.3. Acesso paralelizado: tecnologia RAID • 5.4. Buferização (cache) de blocos • 5.5. Alocação de registros de arquivo em disco • 5.6. Operações em arquivos • Organizações de arquivos • 5.7. Arquivos não ordenados • 5.8. Arquivos ordenados • 5.9. Técnicas de “hashing”

  2. 5.1. Tipos de Armazenamento • Memória primária • Memória principal (DRAM) e cache (RAM) • acesso muito rápido • capacidade limitada • Volátil • Memória secundária • Discos magnéticos ou óticos, fitas • acesso mais lento • maior capacidade • Não volátil • Obs: dados em memória secundária não podem ser processados pela UCP (devem ser antes transferidos para a memória primária)

  3. Armazenamento de Bancos de Dados • Por que em memória secundária (discos)? • Volume de dados armazenados é grande demais para ficar em memória • Bancos de Dados devem ser persistentes • (a memória primária é volátil) • Custo de armazenamento/unidade de dados = uma ordem de grandeza (dezenas de vezes) < para discos do que para memória primária.

  4. 5.2.Dispositivos de Armazenamento Secundário • Parâmetros característicos de discos magnéticos: • capacidade = no de superfícies x no de trilhas x setores/trilha x capacidade do setor (alguns megabytes a alguns gigabytes). • tempo de localização = tempo de busca + retardo rotacional • tempo de busca (seek time), anunciado pelo fabricante (10 a 60 mseg). • retardo rotacional ou latência = (1/2) x tempo de rotação (8,33 ms para 3.600 rpm) • tempo de acesso ao dado = tempo de localização + tempo de transferência de bloco • tempo de transferência de bloco = B / tr • B = tamanho do bloco • tr = taxa de transferência = capacidade da trilha / tempo de rotação

  5. Hardware de Disco Magnético trilha setor (arco de uma trilha} spindle atuador braço cilindro movimento do atuador cabeças de leitura/gravação

  6. Superfície, trilha, setor

  7. Discos Magnéticos • Formatação lógica: blocos de 512 a 4096 bytes. • Tempo de transferência bem menor que o tempo de busca e o retardo rotacional. • Tempo total de acesso aos dados da ordem de milisegundos; tempo de processamento na memória principal da ordem de microsegundos. • Objetivo das estruturas de arquivos: • minimizar o número de acessos a disco

  8. Dispositivos de Armazenamento • Novas tecnologias: • Discos óticos • Tipo WORM (Write Once Read Many) • Exemplo : CD-ROM • Trilha única em alto/baixo relevo (“pits” e “lands”) • 270.000 setores de 2 KB (527 MB úteis) • Taxa de transferência 75 setores/seg = 150 KB/seg • Discos magneto-óticos • Permitem escrever várias vezes • Possuem densidade muito maior do que discos magnéticos • Tendem a substituir os disquetes magnéticos.

  9. RAID = Redundant Array of Independent Disks Arquivo particionado nos vários discos Particionamento transparente Acesso em paralelo 5.3. Acesso paralelizado: tecnologia RAID

  10. Reduzir acessos a disco Possibilita a execução concorrente de tarefas E/S de um bloco concorre com processamento de outro bloco Dupla buferização: Possibilita leitura antecipada de blocos contíguos Escrita retardada de blocos contíguos 5.4. Buferização (cache) de blocos

  11. 5.5. Alocação de registros de arquivo em disco Registros, Campos, Tipos de Dados • Registros  • entidades, seus atributos e relacionamentos • coleção de itens de dados, onde cada item é composto de um ou mais bytes (caracteres) e corresponde a um campo do registro. • Tipo de registro Campo Tipo de dado • type EMPREGADO = record Nome : packed array[1..30] of character; • CPF : packed array [1..11] of character; • Salário : integer; • Profissão : integer; • Departamento : packed array[1..20] of character; • end;

  12. Arquivos, Registros de Tamanho Fixo e Variável • Um arquivo é uma seqüência de registros. • Usualmente, arquivos com registros de tamanho fixo (facilitam o armazenamento e o acesso). • Arquivos com registros de tamanho variável • campos com tamanho variável; • campos com múltiplos valores; • campos opcionais; • registros de diferentes tipos. • Registros de tamanho variável podem ser representados como registros de tamanho fixo, porém com desperdício de espaço.

  13. Algumas Formas de Armazenamento de Registros registro de tamanho fixo Salário Profissão Departamento Nome CPF 1 31 42 46 50 69 registros com campos de tamanho variável caracter separador xxxx xxxx Pessoal Maria Silva 12345678900 1 13 24 28 32 39 Departamento=Pessoal Nome=Maria Silva CPF=12345678900 1 18 34 54 = separador de nome de campo / valor separador de campo separador de registro

  14. Blocagem de Registros • Fator de Blocagem • bfr = B / R registros por bloco, • onde B é o tamanho do bloco e R o tamanho do registro em bytes. Exemplo : bfr = 512 / 69 = 7 • Espaço não usado em cada bloco • (B - bfr x R) bytes. Exemplo : 512 - 7 x 69 = 29 • Razões para blocagem de registros: • reduz o número de operações de transferência de dados entre memórias secundária e primária; • reduz o número de intervalos entre blocos (“interblock gaps”), aumentando, em conseqüência o uso do espaço do disco.

  15. Organização Espalhada e Não Espalhada registro 1 registro 2 registro 3 bloco i bloco i+1 registro 4 registro 5 registro 6 organização não espalhada (“unspanned”) (usual para registros de tamanho fixo) registro 1 registro 2 registro 3 registro 4 p bloco i bloco i+1 reg. 4 registro 5 p registro 6 registro 7 organização espalhada (“spanned”) OBS: Quando o tamanho do registro é maior que o tamanho do bloco ( R > B), a organização espalhada é obrigatória.

  16. Alocação de Blocos de Arquivo em Disco • Alocação contígua: • blocos de arquivos em blocos consecutivos de disco; • leitura do arquivo inteiro muito rápida, mas expansão difícil. • Alocação encadeada: • cada bloco de arquivo contém um ponteiro para o próximo bloco de arquivo; • fácil expansão, mas leitura do arquivo inteiro muito lenta. • Combinações das duas técnicas: • Alocação de “clusters” de blocos de discos consecutivos, também chamados segmentos ou “extents”, que são então encadeados. • Alocação indexada, onde um ou mais blocos de índice contêm ponteiros para os blocos de arquivos.

  17. Descritores de Arquivo • Conteúdo do descritor de arquivo (“header”): • endereços no disco dos blocos de arquivo; • descrições do formato de registro • tamanhos de campos; • ordem dos campos dentro de registros de tamanho fixo não espalhados; • códigos de tipos de campos, caracteres separadores, códigos de tipos de registros para registros de tamanho variável; • outras informações complementares.

  18. 5.6. Operações em arquivos • Operações registro a registro • Find (ou Locate) • Read (ou Get) • FindNext • Delete • Modify • Insert

  19. Operações em Arquivos • Operações sobre conjuntos: • FindAll • FindOrdered • Reorganize • Operações de controle: • Open • Close

  20. Organizações de Arquivos Organização de arquivo Estrutura dos dados de um arquivo em registros, blocos e estruturas de acesso. Método de acesso grupo de programas que permite a aplicação das operações no arquivo. Objetivo de uma boa organização de arquivo executar tão eficientemente quanto possível as operações mais freqüentes.

  21. 5.6. Arquivos de Registros não Ordenados • Organização mais simples e básica, inserções de novos registros no fim do arquivo. • Usada quando não se sabe exatamente como os dados serão usados no futuro. • Vantagem: • Inserção muito eficiente • Desvantagens: • Busca muito ineficiente (pesquisa seqüencial). • Deleções causam desperdício de espaço, obrigando a freqüentes reorganizações. • Arquivo relativo: organização não ordenada de registros de comprimento fixo usando blocos não espalhados e alocação contígua, onde o acesso a um registro é feito pela sua posição no arquivo.

  22. 5.7.Arquivos de Registros Ordenados • Registros fisicamente ordenados em disco • campo de ordenação, chave de ordenação do arquivo. • Vantagens: • Leitura dos registros na ordem dos valores do campo de ordenação extremamente eficiente. • Achar o registro seguinte na ordem do campo de ordenação usualmente não requer um acesso adicional a bloco. • Busca baseada no campo de ordenação mais eficiente (pesquisa binária). • Desvantagens: • Inserção e deleção de registros custosas • Modificação do valor do campo de ordenação requer deleção e inserção.

  23. Registros do Arquivo de Empregados:campo de ordenação Name

  24. Algumas Opções de Implementação de Inserção e Deleção • Deleção : usar marcadores de deleção (“deletion bits”) e reorganizar o arquivo periodicamente. • Inserção : • Arquivo principal ou mestre ordenado. • Arquivo de overflow ou de transações não ordenado. • Novos registros são inseridos no final do arquivo de transações. • Pesquisa binária no arquivo mestre, pesquisa seqüencial no arquivo de transações • Durante reorganização periódica, os dois arquivos são combinados. • Vantagens? Desvantagens?

  25. 5.9.Técnicas de ‘Hashing” Hashing : Randomização, Aleatorização, Dispersão h(C) função de hashing espaço dos endereços espaço dos valores (ex: os três últimos dígitos do CPF 1.000 posições) (ex: CPF 1.000.000.000 possíveis valores)

  26. CPF Nome Profissão Salário 000 001 002 123456000 456123001 234156002 ... ... ... ... 998 999 567890998 089765999 Hashing Interno Estrutura de dados interna a um programa usada para acessar pequenos arquivos temporários com base no valor de um único campo. Implementação usual : array de registros Exemplo: h(CPF) = CPF mod 1000

  27. Funções de Hashing • Característica desejável: distribuição uniforme, isto é, uma chave qualquer C tem igual chance de “hashear” para qualquer posição. • Algumas funções usuais: • mod (mais usada em geral) • meio do quadrado (usada em tabelas de símbolos) • desdobramento (“folding”) • análise de dígitos • etc. • [V. Lum, P. Yuen, M. Dodd. Key to Address Transform Techniques: a Fundamental Performance Study on Large Existing Formatted Files, Communications of the ACM, 14(4), April 1971]

  28. Tratamento de Colisões • Endereçamento aberto ou linear: • A partir da posição de colisão, procurar uma posição subseqüente vaga. • Encadeamento: • Manter uma lista encadeada de registros de overflow para cada posição no espaço de endereços. • Hashing múltiplo: • Aplicar uma segunda função de hashing quando ocorrer uma colisão. Se ocorrer nova colisão, aplicar endereçamento aberto ou nova função de hashing.

  29. Hashing Externo Hashing para arquivos em disco, registros armazenados em blocos de disco. Cada bloco ou grupo de blocos é chamado de “bucket”. Cada “bucket” contém vários “slots”. endereço do bloco número do bucket 0 1 2 M-2 M-1 Mapeamento de “buckets” em blocos de disco

  30. Buckets de Overflow buckets principais bucket 0 340 460 buckets de overflow ponteiro ponteiro 981 182 ponteiro ponteiro bucket 1 321 761 91 . . . ponteiro bucket 2 22 72 522 ponteiro 652 ponteiro ponteiro ponteiro . . . Os ponteiros são para registros dentro dos buckets de overflow bucket 9 399 89 ponteiro

  31. Técnicas de Hashing com Expansão Dinâmica de Arquivos • Grande problema dos esquemas de hashing estático: o espaço de endereços é fixo. O tratamento por área de overflow tende a diminuir a eficiência na pesquisa. • Algumas técnicas modernas de hashing que permitem a expansão dinâmica dos arquivos. • - Hashing Dinâmico • - Hashing Extensível • - Hashing Linear

  32. Hashing Dinâmico BUCKETS COM DADOS

  33. Hashing Dinâmico BUCKETS COM DADOS nó interno DIRETÓRIO nó folha 0 1

  34. Hashing Dinâmico BUCKETS COM DADOS nó interno DIRETÓRIO nó folha 0 0 1 1

  35. Hashing Dinâmico BUCKETS COM DADOS nó interno DIRETÓRIO nó folha 0 0 1 0 1 1

  36. Hashing Dinâmico BUCKETS COM DADOS nó interno DIRETÓRIO nó folha 0 0 1 0 1 0 1 1

  37. Hashing Dinâmico BUCKETS COM DADOS nó interno DIRETÓRIO nó folha 0 0 1 0 1 0 1 0 1 1

  38. Hashing Extensível BUCKETS COM DADOS d’=0 DIRETÓRIO

  39. Hashing Extensível BUCKETS COM DADOS d’=1 DIRETÓRIO 0 1 d’=1 d = 1

  40. Hashing Extensível BUCKETS COM DADOS d’=2 DIRETÓRIO 00 01 10 11 d’=2 d’=1 d = 2

  41. Hashing Extensível BUCKETS COM DADOS d’=2 DIRETÓRIO 00 01 10 11 d’=2 d’=2 d = 2 d’=2

  42. Hashing Extensível BUCKETS COM DADOS d’=3 DIRETÓRIO d’=3 000 001 010 011 100 101 110 111 d’=2 d’=2 d = 3 d’=2

  43. Hashing Extensível BUCKETS COM DADOS d’=3 DIRETÓRIO d’=3 000 001 010 011 100 101 110 111 d’=2 d’=2 d = 3 d’=3 d’=3

  44. Vantagens Desempenho não se degrada Buckets adicionais alocados quando necessário Reorganizações são pequenas (exceto quando diretório é duplicado ou dividido) Desvantagem Necessidade de consulta prévia ao diretório Hashing Extensível

  45. Hashing Linear 10 0 8 M (numero de buckets base) = 2 11 n (limite inf. p/ h0) = 0 1 13 h0 = C mod 2

  46. Hashing Linear 10 0 8 M = 2 21 overflow 11 n = 0 1 13 h0 = C mod 2

  47. Hashing Linear 8 0 M = 2 11 1 21 13 n = 1 10 2 h0 = C mod 2 h1 = C mod 4 (buckets 0 e 2)

  48. 16 overflow Hashing Linear 8 0 20 11 M = 2 1 21 13 n = 1 10 2 h0 = C mod 2 h1 = C mod 4 (buckets 0 e 2)

  49. Hashing Linear 8 0 16 20 13 M = 4 1 21 n (limite agora p/ h1)= 0 10 2 h1 = C mod 4 11 3

  50. 12 overflow Hashing Linear 8 0 16 20 n = 0 13 1 21 h1 = C mod 4 10 2 11 3

More Related