1 / 59

Bodegas de datos

Bodegas de datos. Business Intelligence Roadmap Carlos Herrera. Agenda. Introducción Etapas Pasos 8 a 16. Introducción. Las construcción de bodegas de datos son procesos. Los pasos mencionados no son mandatorios. Los proyectos BI no son para gerentes de proyectos novatos.

kiele
Download Presentation

Bodegas de datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bodegas de datos Business Intelligence Roadmap Carlos Herrera

  2. Agenda • Introducción • Etapas • Pasos 8 a 16

  3. Introducción • Las construcción de bodegas de datos son procesos. • Los pasos mencionados no son mandatorios. • Los proyectos BI no son para gerentes de proyectos novatos. • Una guía general de lo que funciona y no funciona en proyectos de este tipo

  4. Introducción • Aprox. 60 % de los proyectos BI fracasan por: • PM deficiente • Incumplimientos en entregas • Baja calidad de las entregas • Se requiere pensar en integración • Un sistema BI no puede construirse en un solo Big Bang. • Esta integración implica cambio en la cultura. • Son sistemas de tipo estratégico, no operacional.

  5. Introducción • BI es una arquitectura y una colección de • Apps operacionales • Apps de soporte a la toma de decisiones • DB’s • Permite entre otros • Proyección de ventas • Preparación de BSC • Análisis geoespacial • Minería de datos

  6. Etapas • Justificación • El costo debe ser justificado por la resolución de un problema de negocio o por tomar una ventaja en el negocio. • Planeación • Definición de Infraestructura técnica (SW, DBMS, HW) y no técnica (metodologías, estándares). • Planear detalladamente, para mitigar riesgos como cambios de patrocinadores, alcance, integrantes del proyecto. • Análisis del negocio • Definición del alcance • Calidad de los datos • Pruebas de concepto

  7. Etapas • Diseño • Bases de datos • ETL • Metadato • Construcción • ETL • App • Data Mining • Implantación • Entrenamiento • Evaluación de la versión

  8. Caminos de desarrollo paralelo

  9. Caminos de desarrollo paralelo

  10. Estructura del equipo • Core • Permanentes en el proyecto • Analista de negocio • Manager • Analista de negocio IT • Técnico IT • Por paso • Desarrollador de app líder, arquitecto infraestructura BI, representante del negocio, administrador de datos, experto en DM, desarrollador líder ETL, experto en la materia, manager, DBA y DQA(calidad).

  11. Estructura del equipo • Extensión • No están dedicados 100% y sincronizan sus tareas con los miembros del core. • Comité BI

  12. 8. Diseño de la base de datos

  13. Base de datos BI • Los datos para cargar a una base de datos BI ya existen en otro lugar. • Se debe determinar a que nivel de agregación se deben almacenar.

  14. Diseño lógico • Modelo de estrella • Los datos son representados como un arreglo de valores precalculados, llamados hechos. • Una dimensión es equivalente a una entidad en un modelo de datos. • Las dimensiones se encuentran ligadas a la tabla de hechos • Una tabla de hechos representa un evento del negocio( una venta ). • Los hechos son valores cuantificables. • Pueden existir varias tablas de hechos (agregaciones por diferentes dimensiones) • Las tablas de hechos tienen gran cantidad de registros en comparación con el número de columnas. • Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia) • Casi todas tienen dimensión tiempo. • Las dimensiones contienen gran cantidad de columnas ( regularmente) • Dimensiones conformes son compartidas por diferentes tablas de hechos.

  15. Diseño lógico • Modelo de estrella(cont.) • Eficiencia • Soportado por múltiples RDBMS • Análisis de datos de menor complejidad, debido a la denormalización

  16. Diseño lógico • Modelo de copo de nieve • Mayor normalización, es decir, los niveles de las jerarquías se normalizan. • Mayor flexibilidad • Mayor dificultad de mantenimiento • Joins más costosos • Menos registros en las dimensiones.

  17. Diseño físico • Decisiones para la implementación • Cuanto espacio requiero. • De cuanto debe ser el tamaño del bloque de datos • Se va a utilizar alguna técnica de compactación. • Ubicación física de los datos • Datos accedidos frecuentemente en discos rápidos • Normalmente datos con granularidad máxima en mainframe; agregados en servidores de tamaño medio. • Configuración de discos especial para mejorar el I/O • Operaciones en paralelo

  18. Diseño físico • Particionamiento • Tablas “lógicas” distribuidas en ubicaciones físicas diferentes • Restaurar segmentos sin afectar el desempeño • Clustering • Indexación (B+, Bitmap, Hash) • Ejecución de consultas en paralelo

  19. Entregables • Modelo físico(estrella, integridad referencial, llaves, columnasm etc.) • Diseño físico de la base destino BI(indexación, particionamiento, clustering, ubicación de índices)The physical database design components include dataset placement, index placement, partitioning, clustering, and indexing. These physical database components must be defined to the DBMS when the BI target databases are created. • DDL • DCL(permisos) • Bases de datos BI físicas (ejecutar DDL y DCL) • Procedimientos de mantemiento (BK’s, reorganización, recuperación, monitoreo).

  20. 9. Diseño del ETL

  21. Estrategia de implementación • Compartir un solo proceso coordinado de ETL. • Reconciliar los modelos de datos. • Evitar un ETL por cada BD BI. • El objetivo es obtener consistencia en los datos.

  22. Preparación para el proceso ETL • Reformateo. Unificación de formato a pesar de su origen • Reconciliación. La gran cantidad de datos aumenta el riesgo de redundancia. • Limpieza. Deben depurarse los datos a partir de lo encontrado en el análisis y el prototipo.

  23. Etapas del ETL • Carga inicial • C++, PL/SQL, etc. • Truncar, alargar, eliminar duplicados • Buena oportunidad para organizar los datos • Fuentes son los sistemas operacionales. • Carga de históricos • Sincronizar formatos • Carga incremental • Carga mensual, diaria, etc.

  24. Diseño de los programas de extracción • Se quiere evitar afectar la operación de los sistemas operacionales. • Afortunadamente se cuentan con ventanas de tiempo

  25. Diseño de la transformación • 80% del ETL es transformación • Problemas de fuentes • Llaves primarias inconsistentes • Datos inconsistentes(copias con diferentes valores) • Diferentes formatos • Sinónimos y homónimos • Lógica del proceso embebida

  26. Diseño de la transformación(cont.) • Transformaciones • Renombramiento • Fusión • Abreviaturas • Mapeo de valores

  27. Diseño de la carga • Deshabilitar Integridad referencial • Se requiere un buen esquema de Indexación

  28. Diseño del flujo • Crear un documento de mapeo de origen/destino. • Definición del área temporal (staging)

  29. Actividades

  30. 10. Diseño del metadato • Centralizado basado en BD • Custom • Licenciado • Descentralizado • Distribuido basado en XML(Oracle OMG y Microsoft MDC)

  31. Actividades

  32. Entregables • Modelo físico del metamodelo • DDL del repositorio • DCL • Especificación del repositorio del metadato

  33. 11. Desarrollo del ETL • Oportunidad para eliminar datos inservibles • Normalmente 80% verificando integridad y reglas de negocio • Contar con un involucrado del negocio que pueda tomar decisiones acerca de las reglas

  34. Reconciliación • Importancia del metadato ( origen diferente a lo que se encuentra en BI en cuestión de estructura). • Credibilidad del proyecto BI. • Tipos: • Conteo de registros • Conteo de dominios • Conteo de cantidades

  35. Revisión de pares • Conceptos similares a XP • Validación y discusión con los pares • Solicitar una entrada compleja • Informal • Menor o igual a una hora • Lluvia de ideas

  36. Pruebas • Unitarias • Compilación • Funcionalidad • Captura de excepciones • Integrales • Interacciones • Flujos • Regresión • Aseguramiento de Calidad • Aceptación

  37. Plan formal de pruebas • Propósito • Definición de secuencias y momentos de ejecución • Casos de prueba • Bitácora

  38. Actividades

  39. Entregables • Plan de prueba ETL • ETL • Librería ETL

  40. 12. Desarrollo de aplicaciones • OLAP • Proceso analítico que permite crear nueva información de negocio a partir de transformación y cálculo • Ventajas de herramientas de este tipo para usuarios de negocio • Dimensiones son objetos de negocio • Drill down, roll up, avg, ROI, ranking • Analistas de negocio auto suficientes(flexibilidad de consultas, variedad de acceso) • Gráficas • Análisis de tendencias • Agregaciones

  41. Arquitectura de OLAP • Presentación (GUI) Usuarios de negocio • Servicios OLAP. IT • Servicios DB. MOLAP, ROLAP

  42. Actividades

  43. 13. Minería de datos • Análisis de datos con el objeto de encontrar información valiosa dentro de la gran cantidad de datos • No requiere hipótesis • No solo datos numéricos(texto, voz) • Sin embargo los resultados no son sencillos de entender, se requiere apoyo de estadísticos y expertos del negocio

  44. Importancia • Escenarios posibles • Estudio del comportamiento del negocio • Cambiar actividades del negocio (estrategia)

More Related