PDF de programación - Almacenes de datos (DataWarehouses)

Imágen de pdf Almacenes de datos (DataWarehouses)

Almacenes de datos (DataWarehouses)gráfica de visualizaciones

Publicado el 15 de Marzo del 2019
360 visualizaciones desde el 15 de Marzo del 2019. Una media de 42 por semana
163,1 KB
72 paginas
Almacenes de datos

(DataWarehouses)

Wladimiro Díaz Villanueva

Wladimiro.Diaz@uv.es

Universitat de València

13019 – Diseño de bases de datos– p.1/72

Almacenes de datos

Introducción.

1.
2. Almacenes de datos: motivación, definición y características.
3. Modelado de datos en almacenes de datos.
4. Construcción de un almacén de datos.
5. Funcionalidad de un almacén de datos.
6. Procesamiento analítico en línea.
7. Problemas de implementación.

13019 – Diseño de bases de datos– p.2/72

1. Introducción.

13019 – Diseño de bases de datos– p.3/72

1. Introducción

El cada vez mayor poder de procesamiento y sofisticación de
las herramientas y técnicas analíticas ha dado como resultado
la creación de los almacenes de datos.
Proporcionan almacenamiento, funcionalidad y receptividad a
las consultas que van más allá de las posibilidades de las bases
de datos destinadas a transacciones.
A este poder en progresivo aumento, se le ha unido una gran
demanda para mejorar el rendimiento del acceso a datos que
tienen las bases de datos.

Las bases de datos tradicionales equilibran el requisito de
acceso a datos con la necesidad de asegurar la integridad
de los mismos.

13019 – Diseño de bases de datos– p.4/72

1. Introducción...

Los ejecutivos de mandos intermedios y superiores necesitan
que se les proporcione información precisa adecuada para su
labor en la toma de decisiones.

Estos usuarios tan solo necesitan acceso de lectura a los
datos.
Pero requieren un acceso muy rápido a un gran volumen de
datos que pueden descargarse cómodamente en su
computador personal.

Los vendedores de software y el personal de mantenimiento de
sistemas han comenzado a diseñar sistemas para realizar estas
funciones.
El mercado de almacenes de datos ha sufrido un rápido
crecimiento desde mediados de los años noventa.

13019 – Diseño de bases de datos– p.5/72

1. Introducción...

Dado que se han creado almacenes de datos para satisfacer las
necesidades particulares de las empresas, no existe una sola
definición canónica del término almacén de datos.

Los artículos y libros especializados han ido variando su
significado de formas diferentes.
Los vendedores han sacado partido de la popularidad del
término para impulsar un mercado de diversos productos
relacionados.
Los consultores han ofrecido una gran variedad de
servicios, todos bajo el estandarte de almacenamiento de
datos.

Los almacenes de datos difieren de las bases de datos tradicionales
en su estructura, funcionamiento, rendimiento y propósito.

13019 – Diseño de bases de datos– p.6/72

2. Almacenes de datos:
motivación, definición y

características.

13019 – Diseño de bases de datos– p.7/72

2.1. Motivación

La mayoría de decisiones de empresas, organizaciones e
instituciones se basan en información de experiencias pasadas.
Generalmente, la información que es necesario investigar sobre
un cierto dominio de la organización se encuentra en:

Bases de datos, tanto internas como externas.
Otras fuentes muy diversas, no necesariamente bases de
datos.

Muchas de estas fuentes son las que se utilizan para el trabajo
diario.

13019 – Diseño de bases de datos– p.8/72

2.1. Motivación...

Tradicionalmente el análisis para la toma de decisiones se
realizaba sobre estas mismas bases de datos de trabajo o bases
de datos transaccionales.
Esto implica simultanear:

El trabajo transaccional diario de los sistemas de
información originales (OLTP, On-LineTransactional
Processing)
Con el análisis de los datos en tiempo real sobre la misma
base de datos (OLAP, On-LineAnalyticalProcessing).

13019 – Diseño de bases de datos– p.9/72

2.1. Motivación...

Esto provoca problemas:

Disturba el trabajo transaccional diario de los sistemas de
información originales:

Se realizan consultas muy pesadas (killerqueries).
En situaciones de carga alta, la perturbación es tal que el
proceso analítico se debe realizar por la noche o en
periodos festivos.

La base de datos está diseñada para el trabajo transaccional y
no para el análisis de los datos, por lo que el análisis es lento.

13019 – Diseño de bases de datos– p.10/72

2.1. Motivación...

Los costes de almacenamiento masivo y conectividad se han
reducido en los últimos años.
Una forma eficiente de operar consiste en copiar los datos
necesarios para OLAP en un sistema unificado.

Este es el origen de los almacenes de datos (data warehouses) y
toda la tecnología asociada (datawarehousing).

Facilitan el análisis de los datos en tiempo real (OLAP).
No disturban el OLTP de las bases de datos originales.

Separar los datos a analizar con respecto a sus fuentes transaccio-
nales requiere tener en cuenta cómo organizar los datos y cómo
mantenerlos actualizados.

13019 – Diseño de bases de datos– p.11/72

2.2. Definiciones

W.H. Inmon definió un almacén de datos como:

“un conjunto de datos orientado a temas, integrado, no
volátil, variante en el tiempo, como soporte para la toma
de decisiones”

Los almacenes de datos proporcionan acceso a datos para
análisis complejos, revelación de conocimientos y toma de
decisiones.
Dan respuesta a las demandas de alto rendimiento de datos e
información de una organización. Soportan varios tipos de
aplicaciones, como OLAP, DSS y aplicaciones de minería de
datos.

13019 – Diseño de bases de datos– p.12/72

2.2. Definiciones...

OLAP (on-lineanaliticalprocessing): análisis de datos
complejos del almacén de datos.
Los DSS (decissionsupportsystems) proporcionan a las
personas que han de tomar decisiones importantes dentro de
una organización, datos de nivel superior para la toma de
decisiones complejas.
La minería de datos se emplea para el descubrimiento de
conocimiento: es un proceso de búsqueda, a partir de los datos,
de conocimientos nuevos y no anticipados.

13019 – Diseño de bases de datos– p.13/72

2.2. Definiciones...

Las bases de datos tradicionales soportan OLTP:

Operaciones de inserción, actualización y borrado que
implican sólo algunas tuplas por relación.
Aunque también soporta requisitos de consultas de
información, están optimizadas para procesar consultas
que abarcan una pequeña parte de la base datos.

Por lo tanto, no pueden ser optimizadas para OLAP, DSS o
minería de datos.

Los almacenes de datos están diseñados precisamente para
realizar eficientemente la extracción, procesamiento y
presentación para el análisis y la toma de decisiones.

13019 – Diseño de bases de datos– p.14/72

2.3. Características

Para examinar los almacenes de datos y distinguirlos de las bases de
datos transaccionales es necesario contar con un modelo de datos
que sea apropiado.

El modelo de datos multidimensional es una buena opción para
las tecnologías OLAP y de soporte a la toma de decisión.
En un almacén de datos es con frecuencia un almacén de datos
integrados provenientes de fuentes diversas, procesados para su
almacenamiento en un modelo multidimensional.
Los almacenes de datos suelen mantener series de tiempo y
análisis de tendencia, que necesitan más datos históricos de los
que contienen generalmente las bases de datos transaccionales.

13019 – Diseño de bases de datos– p.15/72

2.3. Características...

Los almacenes de datos son no volátiles. Esto significa que la
información contenida en el almacén de datos cambia con
menos frecuencia y puede considerarse como tiempo no real
con actualización periódica.
La información del almacén de datos es menos precisa (de
grano grueso) y se actualiza de acuerdo a una política de
actualización, elegida con cuidado, y que es generalmente
incremental.
Las actualizaciones del almacén de datos las realiza el
componente de adquisición del almacén, que proporciona todo
el procesamiento previo necesario.

13019 – Diseño de bases de datos– p.16/72

2.3. Características...

Perspectiva general de la estructura conceptual de un almacén de
datos:

Bases de datos

Salvado de
datos limpios

Limpieza

Otras entradas de datos

Reformateo

Actualizaciones/Nuevos datos

ALMACÉN DE DATOS

DATOS

METADATOS

OLAP

DSSI/EIS

MINERÍA
DE DATOS

13019 – Diseño de bases de datos– p.17/72

2.3. Características...

Características distintivas de un almacén de datos:

Visión conceptual multidimensional.
Dimensionalidad genérica.
Dimensiones ilimitadas y niveles de agregación.
Operaciones de dimensiones cruzadas sin restricciones.
Tratamiento de matriz sparse y dinámica.
Arquitectura cliente-servidor.
Soporte multiusuario.
Accesibilidad.
Transparencia.

13019 – Diseño de bases de datos– p.18/72

2.3. Características...

Manipulación de datos intuitiva.
Buen rendimiento al crear informes consistentes.
Creación de informes flexibles.

13019 – Diseño de bases de datos– p.19/72

2.3. Características...

Los almacenes de datos tienen un orden de magnitud (a veces
dos) superior al de las bases de datos fuente.
Este inmenso volumen de datos (probablemente de terabytes)
ha sido tratado mediante:

Los almacenes de datos en grandes empresas son
proyectos de gran tamaño que requieren una enorme
inversión de tiempo y recursos.
Los almacenes de datos virtuales proporcionan vistas de
bases de datos operacionales que se materializan para un
acceso eficiente.
Los datamarts tienen generalmente como objetivo un
subconjunto de la organización.

13019 – Diseño de bases de datos– p.20/72

3. Modelado de datos en

almacenes de datos.

13019 – Diseño de bases de datos– p.21/72

3. Modelado de datos

Una hoja de cálculo estándar constituye una matriz
bidimensional.

Región
Región 2

Región 1

Región 3

...

o
t
c
u
d
o
r
P

P123

P123

P125

P126

.
.
.

V a l o r e s

13019 – Diseño de bases de datos– p.22/72

3. Modelado de datos...

Si añadimos una dimensión temporal tendríamos una matriz
tridimensional.

Región

Región 1

Región 2

Región 3

...

V a l o r e s

o
t
c
u
d
o
r
P

P123

P123

P125

P126

.
.
.

...
Trim.3

Trim estre

Trim.2

Trim.1

13019 – Diseño de bases de datos– p.23/72

3. Modelado de datos...

Las herramientas de explotación OLAP de los almacenes de
datos han adoptado un modelo multidimensional de datos.

C

li

e
  • Links de descarga
http://lwp-l.com/pdf15506

Comentarios de: Almacenes de datos (DataWarehouses) (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad

Revisar política de publicidad