1.01k likes | 1.17k Views
Infraestrutura computacional para BI. Guilherme Galante. Roteiro. Introdução Armazenamento de dados Mídias de armazenamento RAID DAS, NAS, SAN Sistemas de Arquivo Backup Alta Disponibilidade Virtualização e Computação em nuvem. Parte I – Introdução.
E N D
Infraestrutura computacional para BI Guilherme Galante
Roteiro • Introdução • Armazenamento de dados • Mídias de armazenamento • RAID • DAS, NAS, SAN • Sistemas de Arquivo • Backup • Alta Disponibilidade • Virtualização e Computação em nuvem Infraestrutura para BI
Parte I – Introdução Infraestrutura para BI
BI: Passos para o desenvolvimento Larissa T. Moss, Shaku Atre - Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications - Addison Wesley. 2003 Infraestrutura para BI
Demanda por Infraestrutura • Armazenamento • Confiabilidade e Disponibilidade • Capacidade • Desempenho • Processamento • Desempenho • Escalabilidade (mudanças acontecem) Armazenamento Grande Quantidade de dados BI Processamento Infraestrutura para BI
O aumento da quantidade de dados emergiu como o maior desafio para a infraestrutura de hardware de data centers, com 47% dos clientes de grandes empresas classificando-o entre os três principais desafios, seguido por desempenho do sistema e escalabilidade (37%), além de congestionamento da rede e arquitetura de conectividade (36%). Gartner 2011. Parte I – Armazenamento de Dados Infraestrutura para BI
Camadas de Armazenamento de dados 6. Aplicações e Banco de Dados 5. Sistema de Arquivos 4. Software RAID e Ger. Volumes 3. Hardware de RAID 2. SAN (Storage Area Network) 1. Mídias de Armazenamento Infraestrutura para BI
Parte I.1 – Mídias de Armazenamento Infraestrutura para BI
Discos Rígidos • 90% de novas informações geradas são armazenadas em discos rígidos (2007) • Confiáveis(?!) • Compostos por diversos componentes • Tempo de vida médio: 5 anos • Fatores relevantes para falhas: • Idade • Carga de uso • Ambiente Infraestrutura para BI
Anatomia do disco Infraestrutura para BI
Probabilidade de Falhas em disco • Estudo do Google (2007) • USENIX Conference on File and Storage Technologies (FAST’07) • Dados coletados de 100.000 discos de seus servidores • Conclusões • Após o segundo ano de vida do HD a probabilidade de falha quadruplica • A utilização do HD influencia menos que o esperado; a alta utilização só aumenta sensivelmente a taxa de falhas nos 6 primeiros meses e após o 5º ano de uso • A temperatura também influencia menos que o esperado. A longo prazo a melhor temperatura de operação é entre 30-40 graus Infraestrutura para BI
S.M.A.R.T • Self-Monitoring, Analysis and Reporting Tecnhology • Sistema de monitoramento de discos que detecta e antecipa falhas, através de vários indicadores de confiabilidade • Implementado no próprio disco Infraestrutura para BI
S.M.A.R.T – Informações do disco • Seek error rate • Trilha não encontrada • Raw read error rate • Problemas na mídia magnética • hardware ECC recovered • Correções de erro • Scan error rate • Taxa de erros não reparáveis • Spin up time • Tempo de inicialização • Reallocated sector count • Setores realocados (!) • Temperatura • Contador de ativações/desativações • Horas de funcionamento Infraestrutura para BI
S.M.A.R.T • Conclusões Google retiradas do S.M.A.R.T • Após o primeiro Scan Error (Raw Read Erro Rate) a chance de um HD falhar nos próximos 60 dias aumenta pelo fator 39 • Após o primeiro Reallocation Count chance de um HD falhar nos próximos 60 dias aumenta pelo fator 14 • Após o primeiro Offline Realocation chance de um HD falhar nos próximos 60 dias aumenta pelo fator 21 • Após o primeiro Pending Sector chance de um HD falhar nos próximos 60 dias aumenta pelo fator 16. • 2/3 das falhas podem ser previstas • 1/3 ocorre sem aviso Infraestrutura para BI
Ferramentas • Smartmontools (linux e windows) • http://sourceforge.net/apps/trac/smartmontools/wiki • Disponível em várias distribuições • Interface gráfica • http://gsmartcontrol.berlios.de/home/index.php/en/Home • CrystalDiskInfo (windows) • Disk Monitor (windows) • http://www.ntfs.com/disk-monitor.htm Infraestrutura para BI
Solid State Disks - SSD • Usam materiais semi-condutores para o armazenamento • Sem partes móveis • Não é sensível a choque, altitude, vibração, magnetismo • Problemas: • limite de regravações • custo • Compensa? Infraestrutura para BI
HDD vs SDD Infraestrutura para BI
Fitas Magnéticas • Dispositivos de armazenamento de dados mais utilizados no mercado corporativo para guardar dados e fazer backups • Desde que armazenadas adequadamente, podem conter informações por aproximadamente 1 século • Grande capacidade de armazenamento Infraestrutura para BI
Parte I.2 – RAID Infraestrutura para BI
RAID • Redundant Array of Independent (Inexpensive) Disks • Motivação: • Redundância (confiabilidade) • Desempenho • Volumes lógicos maiores • Dividido em níveis (0 – 6) • Hardware ou Sofware Infraestrutura para BI
RAID 0 • Conhecido como stripping • Junção de 2 ou mais discos • Sem redundância (!) • Divisão dos dados em fatias (stripes) • Aumento do tamanho da unidade lógica • Aumento do Desempenho • Blocos pode ser lidos/escritos em paralelo • Não confundir com JBOD • Just a Bunch Of Disks • Quando usar: • Quando for necessário APENAS desempenho • Operações temporárias 20GB 20GB 40GB Infraestrutura para BI
RAID 0 - desempenho Fonte: Clube do Hardware Infraestrutura para BI
RAID 1 • Espelhamento de discos (mirroring) • Dados armazenados em dois ou mais dispositivos • Redundância de dados • Cara (50% do espaço de disco) • Desempenho: • Leitura rápida (com suporte do SO) • Escrita lenta • Quando usar: • Aplicações que exigem redundância • Leituras rápidas • Ex. Pequenos servidores de arquivo 20GB 20GB 20GB Infraestrutura para BI
RAID 2, 3 e 4 • Obsoletos e pouco utilizados • Variações de RAID 0 • RAID 2 • Código de Hamming (correção de erros) • Discos atuais já possuem este tipo de correção • RAID 3 • Um disco para armazenar paridade (byte) • RAID 4 • Um disco para armazenar paridade (bloco) Infraestrutura para BI
RAID 5 • Divide dados entre todos os discos • Paridade distribuída • Um disco pode falhar sem perda de dados • Bom desempenho • Operações paralelas • Quando usar: • Desempenho • Redundância • Servidores de BD • Mínimo 3 discos 20GB 20GB 20GB 20GB 60GB Infraestrutura para BI
RAID 6 • Variação do RAID 5 • Duplicação dos blocos de paridade Infraestrutura para BI
RAID 0+1 • Junção de dois volumes RAID0 em um volume RAID1 • Dobra-se a velocidade de leitura e gravação • Tolerância a falhas de até dois discos • RAIDs diferentes • Quando usar: • Rapidez e redundância • 4 discos necessários • 50% perda de espaço Infraestrutura para BI
RAID 10 • Junção de dois volumes RAID1 em um volume RAID0 • Desempenho elevado • Confiabilidade Infraestrutura para BI
RAID 50 • Combina o stripping do nível 0 com a paridade distribuída do nível 5 • Requer pelo menos 6 drives • Escritas rápidas • Ótimo desempenho Infraestrutura para BI
RAID – capacidade Infraestrutura para BI
RAID – desempenho Infraestrutura para BI
RAID: HW vs SW Infraestrutura para BI
RAID por hardware • Controladoras que realizam todas as operações via hardware • Podem ser externas ou “plugáveis” • Algumas placas-mãe já tem embutidas (ponte-sul compatível) • Os chipsets da Intel que têm RAID integrado possuem a letra “R” • O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado • - RAID 0, 1, 5, 10 e JBOD • 4 discos SATA II ou SATA I • PCI express • - Aprox. R$500,00 ROCKETRAID2302 Infraestrutura para BI
RAID por hardware • O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado • Muitas vezes como um drive SCSI Chip Promise FastTrak 100 Lite da Soyo Dragon Plus Infraestrutura para BI
RAID por sofware • A grande vantagem do RAID por software é seu custo • Nenhuma placa adicional ou mesmo componente onboard faz parte dos seus requisitos • Na verdade, a única necessidade é ter um sistema operacional que dê suporte a essa tecnologia • Windows, Linux e MacOS possuem suporte a RAID Infraestrutura para BI
RAID por sofware • Windows 7 (ultimate) • Computador -> Gerenciar -> Gerenciamento de disco Opções de RAID (partições/disco não alocados) Infraestrutura para BI
RAID por sofware • Linux • Linha de comando: • fdisk, mkraid e o mount (abordagem mais antiga) • mdadm • Opção de interface: Webmin + módulo Linux RAID Infraestrutura para BI
RAID: Casos de Uso • Servidor de imagens HTTP • Imagens dos produtos em uma loja online • Conteúdo estático • Fotos são inseridas pelos funcionários • Muitos acessos • Necessidade de acesso rápido • Ficar offline o mínimo possível • Qual o melhor RAID? Infraestrutura para BI
RAID: Casos de Uso • ACME Motion Picture Company • Criação de vídeos • Quantidade enorme de conteúdo • 3 servidores • Trabalhos terminados (Tolerância a Falhas) • Trabalhos em andamento (Tolerância a Falhas) • Edição (Desempenho e Tolerância a Falhas) Infraestrutura para BI
Boa escolha? Infraestrutura para BI
Parte I.3 – DAS, NAS, SAN Infraestrutura para BI
DAS, NAS e SAS • Discos locais podem não ser suficientes • Desempenho • Capacidade • Alternativas: • DAS (Direct Attached Storage) • NAS (Network Attached Storage) • SAN (Storage Area Network) Infraestrutura para BI
Conceitos • Conectividade: • Como os processadores e armazenamento estão físicamente conectados • Mídia: • Cabeamento e protocolos • Protocolos: • Como as requisições são comunicadas à mídia Infraestrutura para BI
Conectividade • Conexão direta • Interligado por rede REDE Infraestrutura para BI
Mídia 2 • Alguns Padrões: • Ethernet • Fibre Channel • Parallel SCSI • SSA (Serial Storage Architecture) 3 4 Infraestrutura para BI
Protocolos • SCSI (Small Computer Systems Interface): • nível de bloco • NFS (Network File System) • nível de arquivo • CIFS (Common Internet File System) • nível de arquivo Infraestrutura para BI
DAS (Direct Attached Storage) • Sistema de armazenamento conectado diretamente a um servidor • Não há acesso direto via rede • acessados pelos outros computadores da rede através do computador ligado a este dispositivo • Interface especial - host bus adapter (HBA) • Variam de gavetas portáteis até dispositivos com vários discos • Os principais protocolos usados nas conexões DAS são: ATA, SATA, eSATA, SCSI, SAS e o Fibre Channel Promise SmartStor DS4600 4-Bay Dell PowerVault MD1000 Infraestrutura para BI
NAS (Network Attached Storage) • Um NAS, por sua vez, roda um sistema operacional completo e funciona como um servidor de arquivos • Também conhecidos como “filers” • Tratada como única unidade de armazenamento • Ligado diretamente na rede • TCP/IP • Acessado via protocolos NFS e CIFS • Usuário enxerga arquivos Infraestrutura para BI
NAS • Limitações: • A rede pode ser um gargalo • Quantidade de discos limitado à capacidade do equipamento • Mais apropriado para uso no nível de arquivo • Opções para implementação de NAS • Equipamentos próprios • PCs podem ser configurados como NAS • NFS • OpenNas (BSD) • OpenFiler (UNIX) Infraestrutura para BI
SAN (Storage Area Network ) • É uma rede dedicada ao armazenamento de dados • Conecta storages aos servidores da rede • Estrutura de rede dedicada, geralmente baseada em Fibre Channel • Os computadores que têm acesso ao SAN possuem interface específica para ligar-se ao SAN, além da interface de rede tradicional • HBA (Host Bus Adapter) Infraestrutura para BI