bodegas de datos
Download
Skip this Video
Download Presentation
Bodegas de datos

Loading in 2 Seconds...

play fullscreen
1 / 59

Bodegas de datos - PowerPoint PPT Presentation


  • 100 Views
  • Uploaded on

Bodegas de datos. Business Intelligence Roadmap Carlos Herrera. Agenda. Introducción Etapas Pasos 8 a 16. Introducción. Las construcción de bodegas de datos son procesos. Los pasos mencionados no son mandatorios. Los proyectos BI no son para gerentes de proyectos novatos.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Bodegas de datos' - kiele


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
bodegas de datos

Bodegas de datos

Business Intelligence Roadmap

Carlos Herrera

agenda
Agenda
  • Introducción
  • Etapas
  • Pasos 8 a 16
introducci n
Introducción
  • Las construcción de bodegas de datos son procesos.
  • Los pasos mencionados no son mandatorios.
  • Los proyectos BI no son para gerentes de proyectos novatos.
  • Una guía general de lo que funciona y no funciona en proyectos de este tipo
introducci n4
Introducción
  • Aprox. 60 % de los proyectos BI fracasan por:
    • PM deficiente
    • Incumplimientos en entregas
    • Baja calidad de las entregas
  • Se requiere pensar en integración
  • Un sistema BI no puede construirse en un solo Big Bang.
  • Esta integración implica cambio en la cultura.
  • Son sistemas de tipo estratégico, no operacional.
introducci n5
Introducción
  • BI es una arquitectura y una colección de
    • Apps operacionales
    • Apps de soporte a la toma de decisiones
    • DB’s
  • Permite entre otros
    • Proyección de ventas
    • Preparación de BSC
    • Análisis geoespacial
    • Minería de datos
etapas
Etapas
  • Justificación
    • El costo debe ser justificado por la resolución de un problema de negocio o por tomar una ventaja en el negocio.
  • Planeación
    • Definición de Infraestructura técnica (SW, DBMS, HW) y no técnica (metodologías, estándares).
    • Planear detalladamente, para mitigar riesgos como cambios de patrocinadores, alcance, integrantes del proyecto.
  • Análisis del negocio
    • Definición del alcance
    • Calidad de los datos
    • Pruebas de concepto
etapas8
Etapas
  • Diseño
    • Bases de datos
    • ETL
    • Metadato
  • Construcción
    • ETL
    • App
    • Data Mining
  • Implantación
    • Entrenamiento
    • Evaluación de la versión
estructura del equipo
Estructura del equipo
  • Core
    • Permanentes en el proyecto
      • Analista de negocio
      • Manager
      • Analista de negocio IT
      • Técnico IT
    • Por paso
      • Desarrollador de app líder, arquitecto infraestructura BI, representante del negocio, administrador de datos, experto en DM, desarrollador líder ETL, experto en la materia, manager, DBA y DQA(calidad).
estructura del equipo12
Estructura del equipo
  • Extensión
    • No están dedicados 100% y sincronizan sus tareas con los miembros del core.
  • Comité BI
base de datos bi
Base de datos BI
  • Los datos para cargar a una base de datos BI ya existen en otro lugar.
  • Se debe determinar a que nivel de agregación se deben almacenar.
dise o l gico
Diseño lógico
  • Modelo de estrella
    • Los datos son representados como un arreglo de valores precalculados, llamados hechos.
    • Una dimensión es equivalente a una entidad en un modelo de datos.
    • Las dimensiones se encuentran ligadas a la tabla de hechos
    • Una tabla de hechos representa un evento del negocio( una venta ).
    • Los hechos son valores cuantificables.
    • Pueden existir varias tablas de hechos (agregaciones por diferentes dimensiones)
    • Las tablas de hechos tienen gran cantidad de registros en comparación con el número de columnas.
    • Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia)
    • Casi todas tienen dimensión tiempo.
    • Las dimensiones contienen gran cantidad de columnas ( regularmente)
    • Dimensiones conformes son compartidas por diferentes tablas de hechos.
dise o l gico16
Diseño lógico
  • Modelo de estrella(cont.)
    • Eficiencia
    • Soportado por múltiples RDBMS
    • Análisis de datos de menor complejidad, debido a la denormalización
dise o l gico18
Diseño lógico
  • Modelo de copo de nieve
    • Mayor normalización, es decir, los niveles de las jerarquías se normalizan.
    • Mayor flexibilidad
    • Mayor dificultad de mantenimiento
    • Joins más costosos
    • Menos registros en las dimensiones.
dise o f sico
Diseño físico
  • Decisiones para la implementación
    • Cuanto espacio requiero.
    • De cuanto debe ser el tamaño del bloque de datos
    • Se va a utilizar alguna técnica de compactación.
  • Ubicación física de los datos
    • Datos accedidos frecuentemente en discos rápidos
    • Normalmente datos con granularidad máxima en mainframe; agregados en servidores de tamaño medio.
    • Configuración de discos especial para mejorar el I/O
    • Operaciones en paralelo
dise o f sico21
Diseño físico
  • Particionamiento
    • Tablas “lógicas” distribuidas en ubicaciones físicas diferentes
    • Restaurar segmentos sin afectar el desempeño
  • Clustering
  • Indexación (B+, Bitmap, Hash)
  • Ejecución de consultas en paralelo
entregables
Entregables
  • Modelo físico(estrella, integridad referencial, llaves, columnasm etc.)
  • Diseño físico de la base destino BI(indexación, particionamiento, clustering, ubicación de índices)The physical database design components include dataset placement, index placement, partitioning, clustering, and indexing. These physical database components must be defined to the DBMS when the BI target databases are created.
  • DDL
  • DCL(permisos)
  • Bases de datos BI físicas (ejecutar DDL y DCL)
  • Procedimientos de mantemiento (BK’s, reorganización, recuperación, monitoreo).
estrategia de implementaci n
Estrategia de implementación
  • Compartir un solo proceso coordinado de ETL.
  • Reconciliar los modelos de datos.
  • Evitar un ETL por cada BD BI.
  • El objetivo es obtener consistencia en los datos.
preparaci n para el proceso etl
Preparación para el proceso ETL
  • Reformateo. Unificación de formato a pesar de su origen
  • Reconciliación. La gran cantidad de datos aumenta el riesgo de redundancia.
  • Limpieza. Deben depurarse los datos a partir de lo encontrado en el análisis y el prototipo.
etapas del etl
Etapas del ETL
  • Carga inicial
    • C++, PL/SQL, etc.
    • Truncar, alargar, eliminar duplicados
    • Buena oportunidad para organizar los datos
    • Fuentes son los sistemas operacionales.
  • Carga de históricos
    • Sincronizar formatos
  • Carga incremental
    • Carga mensual, diaria, etc.
dise o de los programas de extracci n
Diseño de los programas de extracción
  • Se quiere evitar afectar la operación de los sistemas operacionales.
  • Afortunadamente se cuentan con ventanas de tiempo
dise o de la transformaci n
Diseño de la transformación
  • 80% del ETL es transformación
  • Problemas de fuentes
    • Llaves primarias inconsistentes
    • Datos inconsistentes(copias con diferentes valores)
    • Diferentes formatos
    • Sinónimos y homónimos
    • Lógica del proceso embebida
dise o de la transformaci n cont
Diseño de la transformación(cont.)
  • Transformaciones
    • Renombramiento
    • Fusión
    • Abreviaturas
    • Mapeo de valores
dise o de la carga
Diseño de la carga
  • Deshabilitar Integridad referencial
  • Se requiere un buen esquema de Indexación
dise o del flujo
Diseño del flujo
  • Crear un documento de mapeo de origen/destino.
  • Definición del área temporal (staging)
10 dise o del metadato
10. Diseño del metadato
  • Centralizado basado en BD
    • Custom
    • Licenciado
  • Descentralizado
  • Distribuido basado en XML(Oracle OMG y Microsoft MDC)
entregables37
Entregables
  • Modelo físico del metamodelo
  • DDL del repositorio
  • DCL
  • Especificación del repositorio del metadato
11 desarrollo del etl
11. Desarrollo del ETL
  • Oportunidad para eliminar datos inservibles
  • Normalmente 80% verificando integridad y reglas de negocio
  • Contar con un involucrado del negocio que pueda tomar decisiones acerca de las reglas
reconciliaci n
Reconciliación
  • Importancia del metadato ( origen diferente a lo que se encuentra en BI en cuestión de estructura).
  • Credibilidad del proyecto BI.
  • Tipos:
    • Conteo de registros
    • Conteo de dominios
    • Conteo de cantidades
revisi n de pares
Revisión de pares
  • Conceptos similares a XP
  • Validación y discusión con los pares
  • Solicitar una entrada compleja
  • Informal
  • Menor o igual a una hora
  • Lluvia de ideas
pruebas
Pruebas
  • Unitarias
    • Compilación
    • Funcionalidad
    • Captura de excepciones
  • Integrales
    • Interacciones
    • Flujos
  • Regresión
  • Aseguramiento de Calidad
  • Aceptación
plan formal de pruebas
Plan formal de pruebas
  • Propósito
  • Definición de secuencias y momentos de ejecución
  • Casos de prueba
  • Bitácora
entregables44
Entregables
  • Plan de prueba ETL
  • ETL
  • Librería ETL
12 desarrollo de aplicaciones
12. Desarrollo de aplicaciones
  • OLAP
    • Proceso analítico que permite crear nueva información de negocio a partir de transformación y cálculo
    • Ventajas de herramientas de este tipo para usuarios de negocio
      • Dimensiones son objetos de negocio
      • Drill down, roll up, avg, ROI, ranking
      • Analistas de negocio auto suficientes(flexibilidad de consultas, variedad de acceso)
      • Gráficas
      • Análisis de tendencias
      • Agregaciones
arquitectura de olap
Arquitectura de OLAP
  • Presentación (GUI) Usuarios de negocio
  • Servicios OLAP. IT
  • Servicios DB. MOLAP, ROLAP
13 miner a de datos
13. Minería de datos
  • Análisis de datos con el objeto de encontrar información valiosa dentro de la gran cantidad de datos
  • No requiere hipótesis
  • No solo datos numéricos(texto, voz)
  • Sin embargo los resultados no son sencillos de entender, se requiere apoyo de estadísticos y expertos del negocio
importancia
Importancia
  • Escenarios posibles
  • Estudio del comportamiento del negocio
  • Cambiar actividades del negocio (estrategia)
t cnicas
Técnicas
  • Clustering
  • Reglas de asociación
  • Clasificación
  • Predicción
pruebas55
Pruebas
  • Unitarias
  • Integrales
  • Regresión
  • Pruebas de aceptación
15 implementaci n
15. Implementación
  • Iniciar no solo con “power users”
  • Usuarios son clientes
  • Manejo de seguridad(autenticación, autorización, encripción)
  • Matriz de brechas de seguridad
  • Backup
  • Monitoreo
  • Manejo del crecimiento
16 evaluaci n de la versi n
16. Evaluación de la versión
  • Primera versión dura más de seis meses
  • Ciclo posterior de 6 meses
  • El primer release debe entregar lo básico
  • Alcance debe ser controlado
  • Cronograma cumplido?
  • Presupuesto?
  • Satisfacción?
  • Alcance?
  • Planeación de proyecto?
  • Integrantes?
ad