400 likes | 501 Views
Aplicando técnicas de OLAP para gerência de grades OurGrid. Abmar Grangeiro Barros Estágio Integrado. Agenda. Ambiente e supervisão Contexto Resumo do problema Atividades Resultados Considerações finais. Ambiente de Estágio. LSD Supervisão acadêmica Prof.ª Dr.ª Raquel V. Lopes
E N D
Aplicando técnicas de OLAP para gerência de grades OurGrid AbmarGrangeiro Barros Estágio Integrado
Agenda • Ambiente e supervisão • Contexto • Resumo do problema • Atividades • Resultados • Considerações finais
Ambiente de Estágio • LSD • Supervisão acadêmica • Prof.ª Dr.ª Raquel V. Lopes • Supervisão técnica • Rodrigo Vilar de Miranda
Contexto • Uso de grades computacionais na pesquisa científica • Dificuldade de gerenciá-las: • Distribuição • Alta heterogeneidade • Complexidade • Dados históricos podem ajudar nas atividades gerenciais
Contexto • Caso de Uso: OurGrid • Middleware de grades computacionais desenvolvido no LSD. • Possui um sistema hierárquico de coleta de estatísticas. • Já existe uma ferramenta de análise de dados históricos: OurGridStatistics.
Resumo do problema • O OurGridStatistics não escalou. • A principal tabela do BD central ultrapassou os8 Mi de registros. • O Statistics não conseguia gerar mais nenhum gráfico. • As consultas do Statistics foram escolhidas de forma ad-hoc. • Quais as consultas que otimizam a atividade gerencial?
Objetivos • Fazer um levantamento bibliográfico sobre como é feita gerência em outras grades. • Estudar estratégias de OLAP que viabilizem as consultas a serem realizadas. • Implementar as consultas escolhidas usando as técnicas estudadas.
Atividades • Gerência • Revisão bibliográfica, estudo de middlewares • Questionário com gerentes de grade no LSD • Escolha do conjunto de consultas • OLAP • Revisão bibliográfica • Escolha da ferramenta • Implementação e implantação da solução • Documentação
Resultados • Gerência • Conceito: monitorar e controlar os componentes da grade para garantir um certo nível de QoS. • Middlewaresde grade devem fornecer ferramentas para prover informações gerenciais: • gLite • Condor • OurGrid
Questionário • Amostra: Integrantes do LSD que desempenham atividades gerenciais. • Objetivo: Extrair suas principais necessidades quanto à informação de gerência.
Questionário • Quais as atividades relacionadas a gerência de grids que você desempenha? • Quais ferramentas você utiliza pra realizar essas atividades? • Que tipo de informação histórica (última semana, durante o dia) seria útil para suas atividades de gerência?
Resultados • A pesquisa sobre os middlewares e o questionário revelaram que: • A principal informação buscada é disponibilidade dos componentes. • Seguida de relatório de falhas e tempo de execução de tarefas.
Resultados • Consultas a implementar: • Média da quantidade de Peers online. • Média da quantidade de Workersem cada estado, ao longo do tempo e por site. • Razão da disponibilidade média por site. • Quantidade de jobssubmetidos, com sucesso e com falha. • Tempo médio de execução de tarefa.
Resultados • OLAP • Online AnalyticalProcessing. • Trabalha com dados em massa. • Operações são geralmente read-only. • Deve responder rápido o suficiente para permitir uma exploração interativa dos dados.
Análise multidimensional • Dimensões (Dimensions) • Formam as colunas e linhas • Ex.: Year e Product • Hierarquia de dimensões (Ex.: Books, Magazines) • Medidas (Measures) • Formam os valores • Ex.: Dollarsales e Unitsales
Agregações • Para consultas complexas, cubos OLAP conseguem responder em 0,1% do tempo da mesma consulta em OLTP. • O mais importante mecanismo em OLAP é a agregação.
Agregações • Agregações são construídas a partir das tabelas de fatos: • As granularidades de dimensões específicas são alteradas. • Os valores são agregados sobre essas dimensões. • A combinação de todas as possíveis agregações contém as respostas pra qualquer consulta, diretamente dos dados.
Agregações • Assim, um número muito grande de agregações deve ser computado, o que é computacionalmente inviável. • Normalmente uma parte das agregações são pré-calculadas, outras são calculadas por demanda. • O problema de decidir quais agregações pré-calcular é conhecido como view-selection.
View-selection • O objetivo do view-selection é minimizar o tempo médio de resposta das consultas. • View-selectioné NP-completo. • Abordagens já exploradas: • Algoritmos gulosos • Busca aleatória (Randomized search) • Algoritmos genéticos • Busca A*
Ferramentas • Comerciais • Microsoft AnalysisServices • Oracle Essbase • IBM Cognos TM1 • Open-Source • Mondrian OLAP Server • JedoxPalo
Implementação • As tabelas do esquema original não se encaixavam com a definição de tabelas de fatos. • Foi necessário o desenvolvimento de pré-processadores.
Implementação • Decisão: menor grão de tempo apresentado deve ser a hora. • Assim os pré-processadores acumulam valores de uma em uma hora. • O número de registros da tabela pré-processada chega a ser 90% menor que o da tabela original. • Granularidade continua sendo a mesma usada no Statistics.
Implantação • Mondrian roda dentro de um container WEB Apache Tomcat. • Funciona como servidor OLAP para consultas MDX. • Fornece um framework de exibição de tabelas pivô, tabelas específicas para operações OLAP.
Implantação • Arquivos XML descrevem os esquemas dos cubos.
Implantação • Páginas JSP criam as consultas em MDX e desenham o pivô.
Implantação • olap.ourgrid.org • Servidor OLAP rodando com dados reais e atuais da comunidade OurGrid. • Tem implementadas, inicialmente, as consultas elaboradas durante o Estágio.
Considerações Finais • Diferença de desempenho considerável com o uso de técnicas de OLAP. • É necessário fazer testes de usabilidade junto à ferramenta. • Avaliar quanto a ferramenta ajuda de fato nas atividades gerenciais.
Considerações Finais • Trabalhos futuros • Expandir o conjunto de consultas trabalhado nesse Estágio. • Adaptar ferramentas existentes para o uso com o servidor OLAP, como o Statistics.
Lições aprendidas • Foi possível por em prática alguns tópicos importantes do curso: • Banco de dados • Sistemas distribuídos • É importante seguir um cronograma e fazer uma documentação contínua das atividades.