Actualizado el 21 de Marzo del 2018 (Publicado el 20 de Enero del 2018)
496 visualizaciones desde el 20 de Enero del 2018
500,0 KB
10 paginas
&XUVR(cid:3)GH(cid:3)’RFWRUDGR
‡(cid:3)([WUDFFLyQ(cid:3)GH(cid:3)&RQRFLPLHQWR(cid:3)HQ(cid:3)%DVHV(cid:3)GH(cid:3)’DWRV·
,QWURGXFFLyQ(cid:3)DO
’DWD(cid:3):DUHKRXVLQJ
(cid:3))HUQDQGR(cid:3)%HU]DO(cid:3)*DOLDQR
!" $#% &'
(*),+- .0/1- 23)546/879:);<)54:=<>- ?9:)A@>-B;72C+EDF/1-:=<G4*)EH46/8)@<
IJ)54:=<>-AKL.0/8<
M<=<>-:@
NO4:<P)5.?Q<>9 - 99:)RS.- 4 - 9 -
,QWURGXFFLyQ(cid:3)DO(cid:3)’DWD(cid:3):DUHKRXVLQJ
Un "')(+*(-,.()/02143)560 " (DW de aquí en adelante) es un almacén de información
normalmente proveniente de distintas bases de datos cuyo objetivo es ayudar en la toma de
decisiones.
La idea de DW surge como solución al problema del acceso a un sistema heterogéneo
distribuido por mediación (efectuando una consulta compleja que se descompone y envía a las
distintas fuentes de información para después combinar los datos obtenidos resultantes de efectuar
la consulta sobre las distintas fuentes de información). En el DW, la información almacenada se
extrae previamente de las distintas fuentes de datos.
Obviamente, la obtención en información por demanda o mediación es más ineficiente que
la realización de consultas sobre un DW, aunque puede ser útil cuando la información cambia
rápidamente. Por su parte, el DW es más apropiado para realizar consultas sobre datos históricos
y proporciona una visión global que facilita la toma de decisiones que ayuden a atender mejor a
los clientes, reducir costes, mejorar ventas, detectar fraudes, incrementar la productividad...
798:<;>=@?AB798DCE;
Las aplicaciones informáticas de gestión suelen realizar tareas repetitivas muy bien
estructuradas e implican transacciones cortas, actualizaciones generalmente [FHGJI
KLMFN4OPGRQSN40
I/T()N)6T(4U*QV3NDK./3)U!026T6QSNW ]. Sin embargo, los sistemas de ayuda a la decisión [XZY)Y)62LRX[0!U!QS6QV3N
Y45]\)\H3/^*+Y_`6^*02ab6 ] requieren la realización de consultas complejas que involucran muchos datos
e incluyen funciones de agregación. De hecho, las actualizaciones son operaciones poco
frecuentes en este tipo de aplicaciones, denominado genéricamente "procesamiento analítico"
[FHG`c.KL$FN4OPGRQSN40@cdN)(4e
_f*QVU2(4eK./3)U!026T6QSNW ].
Los requerimientos característicos de las aplicaciones OLAP son, por tanto, muy
diferentes a los de los sistemas OLTP.
Las transacciones OLTP se realizan sobre grandes bases de datos a las cuales se puede
acceder eficientemente empleando índices (sobre las claves primarias usualmente) y es esencial
garantizar su "acidez" (atomicidad, consistencia, aislamiento y durabilidad).
Por su parte, los DW, orientados al soporte de decisiones, almacenan datos resumidos de
tipo histórico y han de responder en tiempo real a consultas complejas consultas que involucran
reuniones y agregaciones. En este caso, la optimización de las consultas y el tiempo de respuesta
son primordiales.
!
"$#! &%
')(*,+!-./
(F
:;</(
F=9-!;<J=
;K(+EL9/
./(
?@6
(/
'-!-!+E(/
576
(+89+8
0,132
4
./(3.:
89;<-!;</=
69>
Operadores
?@6
0,1
:+ED9/GF(+
6BAC6
Ejecutivos
Operaciones diarias
Procesamiento de transacciones
Soporte de decisiones
Procesamiento analítico
Orientado a las aplicaciones
Orientado al usuario
Actuales, atómicos
(relacionales)
Rutinario
Lectura/escritura
Transacciones simples
Históricos, resumidos
(multidimensionales)
"ad hoc"
Lectura
Consultas complejas
+!-!+E(;K8
89+E(
“Acidez” de las transacciones
Datos consistentes
Optimización de consultas
Datos organizados
Dado que las consultas OLAP son muy ineficientes en las bases de datos operacionales,
la información de un DW se suele almacenar por separado. Los DW se pueden implementar sobre
4 ] o utilizar servidores que almacenan los
4 ],
bases de datos relacionales [N
datos directamente en una estructura multidimensional [P
0,1
generalmente utilizando matrices.
.;K89;KQC+E=G(;</=
4O
4O
>K6
.;</=
69>
69>
0,1
0,1
0,1
RTS$UWVYXS[ZYS$\7ZYVY]_^a`7bcXdegfihjhkc\mlm`7Xn^ahUWhlmVY\7jhS$\7bcXWUWVoXS$j@UWb$^aS$jpe
Un modelo de datos multidimensional contiene un conjunto de medidas numéricas objeto
de análisis. Dichas medidas dependen de una serie de dimensiones. Cada medida particular es un
punto en un espacio multidimensional, en el que los valores de cada dimensión se suelen
jerarquizar.
/qQCF
/89+
rEs
.;K89;KQC+E=G(;</=
F8GD9F:;ut
/(W8
?@6vY69>KwgxyGy$z|{
69>
89+
./(
!
"$#! &%
6
6
'
4
.
H
6
I
?
H
M
6
'
N
+
'
'
P
F
>
'
P
>
>
>
6
D
6
Los datos en un DW se modelan en
(cubos de datos sería su traducción literal),
estructuras multidimensionales (hipercubos, en concreto) cuyas operaciones más comunes se
enumeran a continuación:
')(+*(,!-/.1032
(incremento en el nivel de agregación)
(incremento en el nivel de detalle, opuesto a roll up)
56)7879-;:
')5<8787+'=6 >@?
278<8,!0BAC'=<8,!0
:D<8E!6/*(GF 0
(reducción de la dimensionalidad de los datos mediante selección y proyección)
(reorientación de la visión multidimensional de los datos)
HJIKL9MON
El diseño de un DW para una organización completa es un proceso bastante complejo y
" departamentales orientados a la resolución de problemas más
se puede dividir en "
concretos.
')(+*(QPB()5R*2
El modelo de datos multidimensional se implementa directamente con servidores MOLAP.
Cuando se usan servidores relacionales [ROLAP], dicho modelo ha de transformarse en relaciones
y consultas SQL:
TU9VXWBTOYCZ[TO\]TU9^@_BTO`O`DZ
: La base de datos relacional consiste en una tabla simple
de hechos y una tabla para cada dimensión. Cada tupla de la tabla de hechos incluye las
medidas consideradas y una referencia a cada dimensión.
TU9VXWBTOYbZCT@\dcfeg`hZCiTJ\BjkTOlBT
jerarquías manteniendo normalizadas las tablas.
: Refinamiento del esquema en estrella que soporta
]).
Los esquemas anteriores pueden generalizarse con la inclusión de distintas tablas de
m1(=,*
hechos que compartan dimensiones (son las denominadas constelaciones de hechos [
,!6?)2R*0!787n(+*<86?)2
Además de las tablas de hechos y dimensiones, los DW pueden almacenar físicamente
resúmenes con los datos agregados (en tablas adicionales a modo de constelaciones o en la propia
tabla de hechos).
2p)-)03PB(q03?q032R*50!787n(
!
2p)-)03PB(q03?.16)7n(X'=0?=<80!E!0
"$#! &%
4
4
4
4
S
a
o
o
')(+*-,/.103254+03,6(+798:25;/2<(+7:=->-2?,/;A@CB
D6EFHGHIKJL!MJGEONQPRLTSULTEONUVXWULGSQYCZ\[]LTSHSUI
^LTE_Z`IaWUbcQdfegHg5hi
[IaS1^ b EcQNXJIrbS-zbHGEM!LTz ] pueden ser heterogéneas (incluir datos
en distintos formatos: bases de datos relacionales, bases de conocimiento, documentos, páginas
HTML...).
Las jk<l!m5nl!o+p<l$qrm5jsHt3uwvHx!qryHm
El l!m<x!vH{<oOk5|rvHp<sHt [}
EON~H~LTE ], que traslada la información hacia el DW (normalmente
off-line) y ha de convertir los datos al formato adecuado para el DW, incluye un uwsHm<qnsHt en
contacto con la fuente de datos que detecta cuándo se producen modificaciones. La detección de
cambios puede efectuarse en la propia fuente de información (la notificación se propaga por
medio de disparadores) o realizarla el propio monitor consultando los archivos "log", efectuando
consultas periódicas (que no deberían interferir en la utilización habitual del sistema OLTP) o
realizando volcados de los datos. Obviamente, cada tipo de fuente de datos requerirá un
encapsulador/monitor diferente.
El qrm5nl!Ht3vHp<sHt [IaSXJLP5EONXJbE ] filtra, limpia, resume y unifica la información recibida desde
las distintas fuentes. El DW puede verse como un conjunto de "vistas materializadas", por lo que
la tarea del integrador se reduce a mantener dichas vistas, sin olvidar que el DW almacena
información histórica que habitualmente no se mantiene en las bases de datos subyacentes.
Por otro lado, hay que tener en cuenta que la actualización de las vistas no suele realizarse
a la vez que las transacciones sobre la base de datos. El mantenimiento del DW requiere el análisis
de las actualizaciones y la comprobación de qué vistas se ven afectadas por ellas (filtrado de
actualizaciones). También suelen incluirse en el DW vistas auxiliares con el objetivo de reducir
el número de consultas a las fuentes de información (operaciones que son muy complejas) en el
mantenimiento automático del DW y optimizar la materialización de las distintas vistas del DW.
!
"$#! &%
')(+*-,/.103254+03,6(+798-2+037;::7;8-798-2<,/=?>A@
B6CDFEFGIHJ!KHECMLONPJHLPQRQSLFNFLONPJETVUAWYX[Z]\FLPENF\PECG_^)UOL`5LPQSacbdFd$egf
La arquitectura incluye herramientas para extraer, limpiar, transformar e integrar datos
provenientes de distintas fuentes. Además, se ha de cargar la información en el DW y ser puesta
al día periódicamente. Los datos existentes en el DW y en los DMs son gestionados por
servidores OLAP que presentan vistas multidimensionales de los mismos para la generación de
informes, la realización de consultas mediante herramientas análisis exploratorio y el uso de
herramientas de minería de datos [UOLhHL;ijGSTPGSTk ]. Además, es necesario un almacén de metadatos.
El diseño y puesta en marcha de un DW requiere: definir la arquitectura, seleccionar los
recursos hardware y software necesarios, integrar las fuentes de información, diseñar el esquema
del DW y sus vistas asociadas, definir la organización física de los datos (situación, distribución
y métodos de acceso), diseñar e implementar las herramientas de extracción de datos, limpieza,
transformación y actualiz
Comentarios de: Introducción al Data Warehousing (0)
No hay comentarios