Arquitectura de dw
Download
1 / 39

Arquitectura de DW - PowerPoint PPT Presentation


  • 64 Views
  • Uploaded on

Arquitectura de DW. Monitor & Integrator. OLAP Server. other sources. Metadata. Analysis Query Reports Data mining. Operational DBs. Serve. Data Warehouse. Extract Transform Load Refresh. Data Marts. Data Sources. Data Storage. OLAP Engine. Front-End Tools.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Arquitectura de DW ' - loe


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Arquitectura de dw

Arquitectura de DW

H. Galhardas


Monitor

&

Integrator

OLAP Server

other

sources

Metadata

Analysis

Query

Reports

Data mining

Operational

DBs

Serve

Data

Warehouse

Extract

Transform

Load

Refresh

Data Marts

Data Sources

Data Storage

OLAP Engine

Front-End Tools

Arquitectura multi-nível

Sistemas de Apoio à Decisão

(LEIC Tagus)


Extract

Transform

Load

Refresh

Arquitectura multi-nível

Monitor

&

Integrator

OLAP Server

Metadata

other

sources

Analysis

Query

Reports

Data mining

Operational

DBs

Serve

Data

Warehouse

Data

Staging

Data Marts

Data Sources

Data Storage

Sistemas de Apoio à Decisão

(LEIC Tagus)

OLAP Engine

Front-End Tools


Componentes
Componentes

Back-end: dizem respeito à ligação entre as fontes de dados e os repositórios de dados, e o modo como esta ligação se efectua

  • DW, data marts, ODS (operational data store), área de retenção (staging area)/processos de ETL

  • Metadata: representação da camada semântica do DW

    Front-end: consiste no conjunto de ferramentas que permitem aceder, interagir e explorar a informação guardada no DW

  • Ferramentas de reporting, OLAP, data mining

Sistemas de Apoio à Decisão

(LEIC Tagus)


Extract

Transform

Load

Refresh

Componentes de back-end

Monitor

&

Integrator

OLAP Server

Metadata

other

sources

Operational

DBs

Serve

Data

Warehouse

Data

Staging

Data Marts

Data Sources

Data Storage

OLAP Engine

Sistemas de Apoio à Decisão

(LEIC Tagus)


Fontes de dados de back end room
Fontes de dados de back-end(room)

Fontes de dados

  • Bases de dados hierárquicas e relacionais , ficheiros de texto, sistemas ERP, etc

    Área de retenção (data staging area)

  • A maior parte das transformações de dados têm lugar aqui, por exemplo, conversão de chaves, criação de dimensões conformes, etc

    Servidores OLAP e de apresentação

  • Plataformas onde os dados (organizados em data marts) são guardados para serem interrogados pelos utilizadores finais, sistemas de reporting e outras aplicações

    Catálogo de metadados

  • Conjunto de informação que descreve o DW e suporta a sua criação, utilização e manutenção

Sistemas de Apoio à Decisão

(LEIC Tagus)


Servi os de back end room 1
Serviços de Back-end (room) (1)

Área de retenção ou processo ETL (Extraction-Transformation-Load)

  • Ferramentas e técnicas aplicadas

  • Código desenvolvido ou ferramentas “third-party”

Sistemas de Apoio à Decisão

(LEIC Tagus)


Servi os de back end room 2
Serviços de back-end (room) (2)

  • Desafios de extracção:

    • Múltiplas fontes de dados heterógeneas

    • Geração de código para extrair dados de ficheiros

    • Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo

    • Transferência de dados: tem que ser eficiente, usar técnicas de compressão

  • Tarefas de transformação:

    • Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas

    • Manutenção das “slowly changing dimensions”

    • Verificar restrições de integridade

    • Desnormalização

    • Conversão de dados, cáculo e agregação

    • Desduplicação

    • Tratamentode valores nulos

  • Serviços de carregamento:

    • Dependem da platafoma alvo

    • Várias plataformas alvo

    • Optimização do carregamento

Sistemas de Apoio à Decisão

(LEIC Tagus)


Servi os de back end room 21
Serviços de back-end (room) (2)

  • Desafios da extracção:

    • Múltiplas fontes de dados heterógeneas

    • Geração de código para extrair dados de ficheiros

    • Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo

    • Transferência de dados: tem que ser eficiente, usar técnicas de compressão

  • Tarefas de transformação:

    • Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas

    • Manutenção das “slowly changing dimensions”

    • Verificar restrições de integridade

    • Desnormalização

    • Conversão de dados, cáculo e agregação

    • Desduplicação

    • Tratamentode valores nulos

  • Serviços de carregamento:

    • Dependem da platafoma alvo

    • Várias plataformas alvo

    • Optimização do carregamento

Sistemas de Apoio à Decisão

(LEIC Tagus)


Servi os de back end room 22
Serviços de back-end (room) (2)

  • Desafios da extracção:

    • Múltiplas fontes de dados heterógeneas

    • Geração de código para extrair dados de ficheiros

    • Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo

    • Transferência de dados: tem que ser eficiente, usar técnicas de compressão

  • Tarefas de transformação:

    • Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas

    • Manutenção das “slowly changing dimensions”

    • Verificar restrições de integridade

    • Desnormalização

    • Conversão de dados, cáculo e agregação

    • Desduplicação

    • Tratamentode valores nulos

  • Serviços de carregamento:

    • Dependem da platafoma alvo

    • Várias plataformas alvo

    • Optimização do carregamento

Sistemas de Apoio à Decisão

(LEIC Tagus)


Ods 1

Data

Warehouse

ODS (1)

ODS

Data

Staging

Data Sources

  • Duas definições possíveis:

    • Ponto de integração de sistemas operacionais

    • Repositório de informação actualizados e detalhados

    • para suporte à decisão

Sistemas de Apoio à Decisão

(LEIC Tagus)


Ods 2
ODS (2)

Nível intermediário antes do DW

  • Dados integrados, ligeiramente agregados

  • Suporta a análise de dados actualizados

  • Entrada para a área de retenção

Sistemas de Apoio à Decisão

(LEIC Tagus)


Caracter sticas de ods

Priorities Ease of use, flexible data access

Response Time Seconds to minutes

Database Relational

Data Content Organized by subject, current value data, integrated

Nature of Data Dynamic

Processing Structured, analytical

End Users Information consumers, DBAs, clerical users

Características de ODS

Sistemas de Apoio à Decisão

(LEIC Tagus)


Rea de reten o vs ods
Área de retenção vs ODS

  • Não é um complemento aos sistemas operacionais e às suas dificuldades de manipular informação

  • Não é implementada necessariamente numa BDR

  • Não complementa os dados operacionais com timestamp

Sistemas de Apoio à Decisão

(LEIC Tagus)


Metadados
Metadados

Data about data, dictionary of terms, documentation...

  • Essenciais para a gestão dos repositórios de dados e do processo de construção de um DW

  • Arquitectura complexa

  • Grandes volumes de dados

  • Dois tipos principais:

    Metadados de back-room: suportam o processo de ETL

    Metadados de front-room: descritivos, suporta as ferramentas de interrogação e de reporting

Sistemas de Apoio à Decisão

(LEIC Tagus)


Metadados dos sistemas fonte
Metadados dos sistemas fonte

Especificações das fontes

  • Ex: esquemas de dados

    Informação descritiva das fontes

  • Dono

  • Descrição do negócio

  • Frequências de actualização

  • Métodos de acesso, direitos, privilégios e passwds

    Informação do processo

  • Código ou ferramenta para implementar extracção

  • Resultados de processos de extracção

Sistemas de Apoio à Decisão

(LEIC Tagus)


Metadados da rea de reten o
Metadados da área de retenção

Gestão das tabelas de dimensões

  • Esquemas de dimensões conformes e factos

  • Políticas de actualização de dimensões (“Slowly changing dimension”)

  • Atribuições de chaves surrogate para cada chave de produção

  • Snapshot de tabelas de dimensões

  • Transformação e agregação

    • Limpeza de dados, especificação de conversões

    • Correspondência entre esquemas

    • Definições de agregados, estatísticas de utilização, etc

  • Auditoria e documentação

    • Proveniência de dados (data lineage) e registos de auditoria

  • Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Metadados de front end
    Metadados de front-end

    • Nomes de negócio, descrições para colunas, tabelas e agrupamentos

    • Definições de interrogações e de reporting

    • Especificação de ferramentas de visualização

    • Perfis de utilizadores individuais

    • etc

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Problemas
    Problemas

    • Existem metadados por todo o lado

    • Não existem standards universalmente usados

      • Não é possível transferir os metadados entre ferramentas

    • Nem sempre são completos e consistentes

    • Dificilmente aceites como importante pelo negócio

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Standard de metadados
    Standard de metadados

    Formato comum partilhado pelos processos e repositórios

    • MDIS (Metadata Coalition)

    • Common Warehouse Metamodel (OMG at www.omg.org)

  • Iniciativa não standard:

    • Microsoft ’s Meta Data Coalition (MDC) -fusão com OMG sept. 2000

  • Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Omg metamodel architecture
    OMG Metamodel Architecture

    M

    I

    DD

    L

    E

    W

    ARE

    MOF: Class, Attribute,

    Operation,

    Association

    Meta-metamodel

    Layer (M3)

    • Standard OMG Components

    • Modeling Language: UML

    • Metadata Interchange: XMI

    • Metadata API:

      MOF IDL Mapping

    UML: Class, Attribute

    CWM: Table, Column

    ElementType, Attribute

    Metamodel

    Layer(M2)

    AP

    P

    L

    I

    C

    A

    T

    I

    O

    N

    Metadata/Model

    Layer(M1)

    Stock: name, price

    User Data/Object

    Layer (M0)

    <Stock name=“IBM”

    price=“112”/>

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Arquitectura multi-nível

    OLAP Server

    Analysis

    Query

    Reports

    Data mining

    Serve

    Data

    Warehouse

    OLAP Engine

    Front-End Tools

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Arquitecturas de servidor olap
    Arquitecturas de servidor OLAP

    Relational OLAP (ROLAP)

    • Usa SGBDs relacionais ou relacional extendido para armazenar e gerir os dados do datawarehouse e usa middleware OLAP para suportar funcinalidades específicas do OLAP.

    • Inclui optimização suportada pelo SGBDR, implementa lógica de navegação de agregação e serviços/ferramentas adicionais

    • Maior escalabilidade

      Multidimensional OLAP (MOLAP)

    • Motor de armazenamento multidimensional baseado em arrays (sparse matrix techniques)

    • Indexação rápida de dados sumarizados pré-calculados

      Hybrid OLAP (HOLAP)

    • Flexibilidade: baixo nível: relacional, alto nível: array

      Specialized SQL servers

    • Suporte especializado para interrogações SQL sobre esquemas em estrela e floco de neve

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Front end applications
    Front-end applications

    Processamento de informação

    • Interrogações, análise estatística, relatórios usando cross-tabulations, tabelas, gráficos.

      Processamento analítico

    • Análise de dados multidimensionais através de operações OLAP (slice/dice, drill-down, roll-up, pivoting, etc)

      Exploração de dados (data mining)

    • Descoberta de informação encontrando padrões escondidos, associações,construíndo modelos analíticos, executando classificação e previsão, and apresentando os resultados através de ferramentas de visualização adequadas.

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    An olam architecture
    An OLAM Architecture

    Mining query

    Mining result

    Layer4

    User Interface

    User GUI API

    OLAM

    Engine

    OLAP

    Engine

    Layer3

    OLAP/OLAM

    Data Cube API

    Layer2

    MDDB

    MDDB

    Metadata

    Database API

    Filtering&Integration

    Filtering

    Layer1

    Data Repository

    Data cleaning

    Data

    Warehouse

    Data integration

    Databases

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    From olap to olam
    From OLAP to OLAM

    Why online analytical mining?

    • High quality of data in data warehouses

      • DW contains integrated, consistent, cleaned data

    • Available information processing structure surrounding data warehouses

      • ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools

    • OLAP-based exploratory data analysis

      • mining with drilling, dicing, pivoting, etc.

    • On-line selection of data mining functions

      • integration and swapping of multiple mining functions, algorithms, and tasks.

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Bibliografia
    Bibliografia

    • (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 (Secção 2.3)

    • (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16)

    • (Livro) Data Warehouse, from Architecture to Implementation, B. Devlin, Addison Wesley, 1997.

    • (Artigo) An Overview of Data Warehousing and OLAP Technology, S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Diferentes modelos de arquitectura
    Diferentes modelos de arquitectura

    • Single-tier

    • Two-tier

    • Three-tier

    • Multi-tier

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Single tier

    Operational

    DBs

    OLAP,

    Data Mining

    OLTP

    Serve

    Single-tier

    • Dados são todos tratados como real-time

    • Vantagem: Dados não estão replicados =>necessidades de armazenamento baixas e fácil manutenção

    • Desvantagens: disponibilidade dos dados para OLAP e degradação de desempenho para OLTP

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Single tier applications
    Single-tier applications

    • Well suited for:

      • Applications generating large amounts of real data

      • Data is well modeled and internally consistent

      • Updates consist basically on adding records

    • Ex: point-of-sale and telephone-call data

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Virtual data warehouse
    Virtual data warehouse

    • A way to rapidly implement a DW without storing multiple copies of data

    • Consists of:

      • A set of views over operational databases

      • Only some of the possible summary views may be materialized

    • Inumerous inconvenients:

      • Data is structured to optimize operational processes

      • No reconciliation is done => no data quality concerns

      • Consistency problems with user-defined data derivations

      • Possible meaningless user queries because access to all data

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Two tier
    Two-tier

    • Two diff. data usages are recognized

    • Advantage: The contention between the 2 types of data is solved

    • Inconvenient: high level of data duplication and thus data storage requirements

    Operational

    DBs

    Serve

    OLTP

    Derived

    Data

    Serve

    OLAP,

    Data Mining

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Two tier applications
    Two-tier applications

    • Well suited for:

      • Decision-support applications requiring summary-level data derived primarily from single data sources

      • Homogeneous computing environment limited to a small amount of HW and SW platforms

    • Ex: any company in the early/middle stages of decision support implementation

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Three tier
    Three-tier

    • Recognizes that the transformation op. data into derived data requires 2 steps

    • Data reconciliation requires to understand relationships between data sets, their role in the business, and to build an ingle, logical image of the enterprise data model

    • Data derivation is simpler

    Operational

    DBs

    Serve

    OLTP

    Derived

    Data

    Reconciled

    Data

    OLAP,

    Data Mining

    Serve

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Three tier applications
    Three-tier applications

    • Well suited for:

      • Decision-support applications requiring summary-level data derived different data sources

    • The reconciled data model is usually a normalized relational data model

    • Some data transformation and most cleaning are applied when reconciling data

    • Ex: fusioning customer data from distinct sources

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Enterprise warehouse
    Enterprise warehouse

    • Collects all of the information about subjects spanning the entire organization

    • Provides corporate-wide integration from one or more operational data sources

    • Large amounts of data

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Data marts
    Data marts

    • Each indivudual department implements its own decision/management IS

    • Consists of a subset of corporate-wide data that is of value to a specific groups of users.

    • Its scope is confined to selected groups, such as marketing data mart

    • Implementation cycle of a data mart is weeks instead of months (short-term productivity benefits)

    • Independent vs. dependent (directly from warehouse) data mart

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Dw design process
    DW Design Process

    • Top-down, bottom-up approaches or a combination of both (hybrid approach)

    • Bottom-up:

      • Starts with experiments and prototypes (rapid)

      • Derive the DW schema from the data source schemas

      • Allows to move forward at less expense and evaluate the benefits, but harder to grow.

    • Top-down:

      • Starts with overall design and planning (mature)

      • First, get to the DW conceptual schema, then convert data source schema into the global schema

      • Robust but slow and expensive

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    Hybrid approah
    Hybrid approah

    Sistemas de Apoio à Decisão

    (LEIC Tagus)


    ad