Almacenes de datos
(DataWarehouses)
Wladimiro Díaz Villanueva
[email protected]
Universitat de València
13019 – Diseño de bases de datos– p.1/72
Almacenes de datos
Introducción.
1.
2. Almacenes de datos: motivación, definición y características.
3. Modelado de datos en almacenes de datos.
4. Construcción de un almacén de datos.
5. Funcionalidad de un almacén de datos.
6. Procesamiento analítico en línea.
7. Problemas de implementación.
13019 – Diseño de bases de datos– p.2/72
1. Introducción.
13019 – Diseño de bases de datos– p.3/72
1. Introducción
El cada vez mayor poder de procesamiento y sofisticación de
las herramientas y técnicas analíticas ha dado como resultado
la creación de los almacenes de datos.
Proporcionan almacenamiento, funcionalidad y receptividad a
las consultas que van más allá de las posibilidades de las bases
de datos destinadas a transacciones.
A este poder en progresivo aumento, se le ha unido una gran
demanda para mejorar el rendimiento del acceso a datos que
tienen las bases de datos.
Las bases de datos tradicionales equilibran el requisito de
acceso a datos con la necesidad de asegurar la integridad
de los mismos.
13019 – Diseño de bases de datos– p.4/72
1. Introducción...
Los ejecutivos de mandos intermedios y superiores necesitan
que se les proporcione información precisa adecuada para su
labor en la toma de decisiones.
Estos usuarios tan solo necesitan acceso de lectura a los
datos.
Pero requieren un acceso muy rápido a un gran volumen de
datos que pueden descargarse cómodamente en su
computador personal.
Los vendedores de software y el personal de mantenimiento de
sistemas han comenzado a diseñar sistemas para realizar estas
funciones.
El mercado de almacenes de datos ha sufrido un rápido
crecimiento desde mediados de los años noventa.
13019 – Diseño de bases de datos– p.5/72
1. Introducción...
Dado que se han creado almacenes de datos para satisfacer las
necesidades particulares de las empresas, no existe una sola
definición canónica del término almacén de datos.
Los artículos y libros especializados han ido variando su
significado de formas diferentes.
Los vendedores han sacado partido de la popularidad del
término para impulsar un mercado de diversos productos
relacionados.
Los consultores han ofrecido una gran variedad de
servicios, todos bajo el estandarte de almacenamiento de
datos.
Los almacenes de datos difieren de las bases de datos tradicionales
en su estructura, funcionamiento, rendimiento y propósito.
13019 – Diseño de bases de datos– p.6/72
2. Almacenes de datos:
motivación, definición y
características.
13019 – Diseño de bases de datos– p.7/72
2.1. Motivación
La mayoría de decisiones de empresas, organizaciones e
instituciones se basan en información de experiencias pasadas.
Generalmente, la información que es necesario investigar sobre
un cierto dominio de la organización se encuentra en:
Bases de datos, tanto internas como externas.
Otras fuentes muy diversas, no necesariamente bases de
datos.
Muchas de estas fuentes son las que se utilizan para el trabajo
diario.
13019 – Diseño de bases de datos– p.8/72
2.1. Motivación...
Tradicionalmente el análisis para la toma de decisiones se
realizaba sobre estas mismas bases de datos de trabajo o bases
de datos transaccionales.
Esto implica simultanear:
El trabajo transaccional diario de los sistemas de
información originales (OLTP, On-LineTransactional
Processing)
Con el análisis de los datos en tiempo real sobre la misma
base de datos (OLAP, On-LineAnalyticalProcessing).
13019 – Diseño de bases de datos– p.9/72
2.1. Motivación...
Esto provoca problemas:
Disturba el trabajo transaccional diario de los sistemas de
información originales:
Se realizan consultas muy pesadas (killerqueries).
En situaciones de carga alta, la perturbación es tal que el
proceso analítico se debe realizar por la noche o en
periodos festivos.
La base de datos está diseñada para el trabajo transaccional y
no para el análisis de los datos, por lo que el análisis es lento.
13019 – Diseño de bases de datos– p.10/72
2.1. Motivación...
Los costes de almacenamiento masivo y conectividad se han
reducido en los últimos años.
Una forma eficiente de operar consiste en copiar los datos
necesarios para OLAP en un sistema unificado.
Este es el origen de los almacenes de datos (data warehouses) y
toda la tecnología asociada (datawarehousing).
Facilitan el análisis de los datos en tiempo real (OLAP).
No disturban el OLTP de las bases de datos originales.
Separar los datos a analizar con respecto a sus fuentes transaccio-
nales requiere tener en cuenta cómo organizar los datos y cómo
mantenerlos actualizados.
13019 – Diseño de bases de datos– p.11/72
2.2. Definiciones
W.H. Inmon definió un almacén de datos como:
“un conjunto de datos orientado a temas, integrado, no
volátil, variante en el tiempo, como soporte para la toma
de decisiones”
Los almacenes de datos proporcionan acceso a datos para
análisis complejos, revelación de conocimientos y toma de
decisiones.
Dan respuesta a las demandas de alto rendimiento de datos e
información de una organización. Soportan varios tipos de
aplicaciones, como OLAP, DSS y aplicaciones de minería de
datos.
13019 – Diseño de bases de datos– p.12/72
2.2. Definiciones...
OLAP (on-lineanaliticalprocessing): análisis de datos
complejos del almacén de datos.
Los DSS (decissionsupportsystems) proporcionan a las
personas que han de tomar decisiones importantes dentro de
una organización, datos de nivel superior para la toma de
decisiones complejas.
La minería de datos se emplea para el descubrimiento de
conocimiento: es un proceso de búsqueda, a partir de los datos,
de conocimientos nuevos y no anticipados.
13019 – Diseño de bases de datos– p.13/72
2.2. Definiciones...
Las bases de datos tradicionales soportan OLTP:
Operaciones de inserción, actualización y borrado que
implican sólo algunas tuplas por relación.
Aunque también soporta requisitos de consultas de
información, están optimizadas para procesar consultas
que abarcan una pequeña parte de la base datos.
Por lo tanto, no pueden ser optimizadas para OLAP, DSS o
minería de datos.
Los almacenes de datos están diseñados precisamente para
realizar eficientemente la extracción, procesamiento y
presentación para el análisis y la toma de decisiones.
13019 – Diseño de bases de datos– p.14/72
2.3. Características
Para examinar los almacenes de datos y distinguirlos de las bases de
datos transaccionales es necesario contar con un modelo de datos
que sea apropiado.
El modelo de datos multidimensional es una buena opción para
las tecnologías OLAP y de soporte a la toma de decisión.
En un almacén de datos es con frecuencia un almacén de datos
integrados provenientes de fuentes diversas, procesados para su
almacenamiento en un modelo multidimensional.
Los almacenes de datos suelen mantener series de tiempo y
análisis de tendencia, que necesitan más datos históricos de los
que contienen generalmente las bases de datos transaccionales.
13019 – Diseño de bases de datos– p.15/72
2.3. Características...
Los almacenes de datos son no volátiles. Esto significa que la
información contenida en el almacén de datos cambia con
menos frecuencia y puede considerarse como tiempo no real
con actualización periódica.
La información del almacén de datos es menos precisa (de
grano grueso) y se actualiza de acuerdo a una política de
actualización, elegida con cuidado, y que es generalmente
incremental.
Las actualizaciones del almacén de datos las realiza el
componente de adquisición del almacén, que proporciona todo
el procesamiento previo necesario.
13019 – Diseño de bases de datos– p.16/72
2.3. Características...
Perspectiva general de la estructura conceptual de un almacén de
datos:
Bases de datos
Salvado de
datos limpios
Limpieza
Otras entradas de datos
Reformateo
Actualizaciones/Nuevos datos
ALMACÉN DE DATOS
DATOS
METADATOS
OLAP
DSSI/EIS
MINERÍA
DE DATOS
13019 – Diseño de bases de datos– p.17/72
2.3. Características...
Características distintivas de un almacén de datos:
Visión conceptual multidimensional.
Dimensionalidad genérica.
Dimensiones ilimitadas y niveles de agregación.
Operaciones de dimensiones cruzadas sin restricciones.
Tratamiento de matriz sparse y dinámica.
Arquitectura cliente-servidor.
Soporte multiusuario.
Accesibilidad.
Transparencia.
13019 – Diseño de bases de datos– p.18/72
2.3. Características...
Manipulación de datos intuitiva.
Buen rendimiento al crear informes consistentes.
Creación de informes flexibles.
13019 – Diseño de bases de datos– p.19/72
2.3. Características...
Los almacenes de datos tienen un orden de magnitud (a veces
dos) superior al de las bases de datos fuente.
Este inmenso volumen de datos (probablemente de terabytes)
ha sido tratado mediante:
Los almacenes de datos en grandes empresas son
proyectos de gran tamaño que requieren una enorme
inversión de tiempo y recursos.
Los almacenes de datos virtuales proporcionan vistas de
bases de datos operacionales que se materializan para un
acceso eficiente.
Los datamarts tienen generalmente como objetivo un
subconjunto de la organización.
13019 – Diseño de bases de datos– p.20/72
3. Modelado de datos en
almacenes de datos.
13019 – Diseño de bases de datos– p.21/72
3. Modelado de datos
Una hoja de cálculo estándar constituye una matriz
bidimensional.
Región
Región 2
Región 1
Región 3
...
o
t
c
u
d
o
r
P
P123
P123
P125
P126
.
.
.
V a l o r e s
13019 – Diseño de bases de datos– p.22/72
3. Modelado de datos...
Si añadimos una dimensión temporal tendríamos una matriz
tridimensional.
Región
Región 1
Región 2
Región 3
...
V a l o r e s
o
t
c
u
d
o
r
P
P123
P123
P125
P126
.
.
.
...
Trim.3
Trim estre
Trim.2
Trim.1
13019 – Diseño de bases de datos– p.23/72
3. Modelado de datos...
Las herramientas de explotación OLAP de los almacenes de
datos han adoptado un modelo multidimensional de datos.
C
li
e
Comentarios de: Almacenes de datos (DataWarehouses) (0)
No hay comentarios