Fundamentos de Data Warehouse
Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R.
Centro de Actualización Permanente en Ingeniería del Software
Escuela de Postgrado
Instituto Tecnológico de Buenos Aires
Av. Eduardo Madero 399 – (C1106ACD) – Buenos Aires - ARGENTINA
[email protected],
[email protected]
Reportes Técnicos en Ingeniería del Software. Vol. 5(1). Pág.. 19-26. 2003
ISSN: 1667-5002. © CAPIS-EPG-ITBA (http:// http://www.itba.edu.ar/capis/rtis)
1. Introducción
El Data Warehouse es una tecnología para el manejo
de la información construido sobre la base de
optimizar el uso y análisis de la misma utilizado por
las organizaciones para adaptarse a los vertiginosos
cambios en los mercados. Su función esencial es ser
la base de un sistema de información gerencial, es
decir, debe cumplir el rol de
integrador de
información proveniente de fuentes funcionalmente
distintas (Bases Corporativas, Bases propias, de
Sistemas Externos, etc.) y brindar una visión
integrada de dicha
información, especialmente
enfocada hacia la toma de decisiones por parte del
personal jerárquico de la organización.
Es un sitio donde se almacena de manera integrada
toda la información resultante de la operatoria diaria
de la organización. Además, se almacenan datos
estratégicos y tácticos con el objetivo de obtener
información estratégica y táctica que pueden ser de
gran ayuda para aplicar sobre los mismos técnicas de
análisis de datos encaminadas a obtener información
oculta (Data Mining).
Esta
que
modifican el estado del negocio, cualquier
interacción que se
los clientes y
proveedores, y cualquier dato adicional que ayude a
comprender la evolución del negocio.
Esta tecnología ayuda a la organización a responder
preguntas esenciales para la toma de decisiones que
le permitan obtener ventajas competitivas y mejorar
su posición en el mercado en el que operan. Algunas
de las preguntas podrían ser:
incluye movimientos
información
tenga con
- Cuál es el perfil de mis clientes?
- Cómo es su comportamiento?
- Cuál es la rentabilidad que me deja?
- Cuál es el riesgo que corro con él?
- Qué servicios y productos utiliza y cómo
puedo incrementarlos?
- Etc.
técnicas de
Además, se aplican
limpieza e
integración de datos, esto asegura la existencia de
estructuras homogéneas persistentes en el tiempo.
Para comprender mejor el funcionamiento de ésta
tecnología explicaremos su arquitectura y
los
sistemas OLTP y OLAP.
2. Arquitectura del Data Warehouse
La arquitectura (Figura 2) de esta tecnología está
integrada por los siguientes componentes:
2.1. OLTP (On-Line Transaction Processing)
Son aplicaciones que definen el comportamiento
habitual de un entorno operacional de gestión y
ejecutan las operaciones del día a día. Algunas de las
características más comunes de este
tipo de
transacciones podrían ser:
-Altas/Bajas/Modificaciones
- Consultas rápidas, escuetas y predecibles
- Poco volumen de información e
información disgregada
- Transacciones rápidas
- Gran nivel de concurrencia
- Modo de actualización on-line
- Baja redundancia de datos
Algunos ejemplos de este tipo de aplicaciones son:
- Compras
- Ventas
- Inventario
- Sueldos
2.2. Consolidación
Es la parte del proceso de Data Warehouse que se
encarga de producir el cambio de los sistemas OLTP
a las Bases de Datos OLAP. Consolidan datos de
aplicaciones no
sumarizan datos
integradas,
- Comprueba la validez de los datos en el
entorno operacional
Inconsistencia entre distintas aplicaciones
dentro del sistema
-
Mecanismos de Consolidación
- Refresco de datos: Volcado completo de los
datos procedentes del sistema operacional
entre el Cliente y el Servidor. Actúa como traductor
entre distintas tecnologías. Permite que dos o más
sistemas trabajen juntos aunque no estén preparados
para ello. (Figura 1).
Algunas de sus características más relevantes son:
- Un mismo middleware puede poseer más
de una máquina virtual para soportar
diferentes entornos de desarrollo
- Gestiona las comunicaciones con el Data
Warehouse
-
- Controla la concurrencia y controla los
procesos Batch
Posee diversos controladores de Bases de
Datos para acceder a las distintas fuentes,
por ejemplo, Oracle, Sybase, AS400, etc.
Ejemplos:
- Monitores de procesamiento de
transacciones
- Convertidores de datos
- Replicación de datos
- Controladores de comunicación
Factores técnicos
- Mecanismo de transporte
- Tiempos de carga
- Reformateo de datos
2.3. Middleware
Es un software que reside físicamente en un Cliente
y en un Servidor de Comunicaciones, localizado
2.4. OLAP (On-Line Analytical Process)
Son aplicaciones que se encargan de analizar datos
del negocio para generar información táctica y
estratégica que sirve de soporte para la toma de
decisiones. Mientras que las transacciones OLTP
utilizan Bases de Datos Relacionales u otro tipo de
archivos, OLAP logra su máxima eficiencia y
flexibilidad operando
sobre Bases de datos
Multidimensionales.
Podemos nombrar
como las más sobresalientes de estas aplicaciones:
las siguientes características
- Estructura de datos transparente al usuario
Solo Consulta,
-
la
información operacional generada por los
sistemas OLTP
trabajan
sobre
- Consultas sobre grandes volúmenes de
datos no predecibles
Información histórica
-
- Modo de actualización Batch
- Alta redundancia de datos para facilitar la
generación de consultas y obtener buenos
tiempos de respuesta
Fundamentos de Data Warehouse
disgregados y los transforman. Este proceso está
compuesto por tres pasos
Validación de Consistencia de los datos
- Actualización de datos: Volcado
incremental tomando como criterio la fecha
de operación
Propagación de datos
-
20
A P L IC A C IÓ N
A P L IC A C IÓ N
P R O G R A M A S D E IN T E R F A S E D E A P L IC A C IO N E S (A P Is )
M ID D L E W A R E
B A S E D E D A T O S A
B A S E D E D A T O S B
F ig u r a 1 – M id d le w a r e
-
Poderoso Back-end analítico para múltiples
aplicaciones de usuarios
REPORTES TÉCNICOS EN INGENIERÍA DEL SOFTWARE 5 (1)
Fundamentos de Data Warehouse
- Trabaja con
resúmenes de miles de
registros condensados en una sola respuesta
2.5. Data Marts
Una vez contando con la base de información
empresarial integrada y, a partir de esta, se crean
subconjuntos de datos con el propósito de ayudar a
que un área específica dentro del negocio pueda
tomar mejores decisiones. Los datos existentes en
este contexto pueden ser sumarizados, agrupados,
explorados y reportados de múltiples formas para
que diversos grupos de usuarios
la
explotación de los mismos.
realicen
luego
ir ampliando su espectro
riesgos para
gradualmente.
3. Aplicaciones
3.1. EIS (Executive Information System)
Son herramientas para proveer
información
estratégica a los ejecutivos mediante informes,
comparativas
mando
y
multidimensionales.
3.2. DSS (Decission Support System)
cuadros
de
OLTP
OLTP
CONSOLIDACIÓN
OLAP
MIDDLEWARE
OLTP
Figura 2 – Arquitectura del Data Warehouse
EIS
(Executive Information
System)
DDS
(Decision Support
System)
Es un modelo multidimensional basado en
tecnología OLAP, incluyendo variables claves y los
indicadores claves para el proceso de toma de
decisiones.
Algunas ventajas de la construcción del Data Mart:
-
-
-
Son más simples de implementar que un
Data Warehouse
Pequeños conjuntos de datos y, en
consecuencia, menor necesidad de recursos
Se
las
necesidades de las Unidades de Negocio
encuentran más
rápidamente
- Queries más rápidos por menor volumen de
datos
Como desventaja se puede decir que, en algunos
casos, añaden tiempo al proceso de actualización.
En síntesis, son pequeños Data Warehouse centrados
en un tema o un área de negocio específico. En
muchos casos, los Data Warehouse comienzan
siendo Data Marts con el objetivo de minimizar los
Herramienta de soporte para la toma de decisiones.
Incorpora reglas de decisión y análisis de datos no
predefinidos en las posibilidades de un EIS.
-
-
-
-
-
Sistemas de presentación
Sistemas Interrogativos
Sistemas de Simulación
Sistemas funcionales
Sistemas Expertos
4. Diferencias entre OLTP y OLAP
Mientras que las aplicaciones OLTP se caracterizan
por estar actualizadas constantemente por varios
usuarios a través de transacciones operacionales
sobre datos individuales, las aplicaciones OLAP son
utilizadas por personal de niveles ejecutivos que
requieren datos con alto grado de agregación y desde
distintas perspectivas (dimensiones), como ser:
totales de venta por región, por producto, por
período de tiempo,..., etc. (Ver figura 3).
REPORTES TÉCNICOS EN INGENIERÍA DEL SOFTWARE 5 (1) 21
Fundamentos de Data Warehouse
OLTP
Atomizado
Datos Históricos
Un registro a la vez
OLAP
Sumarizado
Datos Actuales
Muchos registros a la vez
Orientado a la
información operativa
Datos relacionales
Orientado a la
información estratégica
Datos Multidimensionales
En cambio, par
Comentarios de: Fundamentos de Data Warehouse (0)
No hay comentarios