PDF de programación - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5

Imágen de pdf Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5gráfica de visualizaciones

Publicado el 19 de Abril del 2017
1.255 visualizaciones desde el 19 de Abril del 2017
232,5 KB
18 paginas
Creado hace 9a (18/11/2014)
Fundamentos y Aplicaciones Prácticas
del Descubrimiento de Conocimiento

en Bases de Datos

- Sesión 5 -

Juan Alfonso Lara Torralbo

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

1

Índice de contenidos

• Data Warehouse

• Modelo multidimensional

• Diagrama en estrella

• Copo de nieve

• Data marts

• OLAP







Implementación

Ejemplo de un almacén de datos

Actividad. Reproducción del ejemplo en MySQL

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

2

Data Warehouse (I)

• Las empresas e instituciones han almacenado

grandes cantidades de información a lo largo de
los años

• Información almacenada en estructuras que dan

soporte a la operativa diaria

• Deseo de extraer conocimiento de los datos
• Se necesita una estructura específica pensada

para el análisis Almacén de datos (Data
Warehouse)

3

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Data Warehouse (II)

• Se parte de las fuentes de datos
• Se realiza un proceso de Extracción,

Transformación y Carga (ETL, Extraction,
Transformation and Load)

• El resultado final es el Data Warehouse

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

4

Data Warehouse (III)

• Proceso ETL:











Unificación de unidades de medida. Por ejemplo, cuando las fuentes trabajan
con unidades diferentes de monedas (€, $, etc.), de temperaturas (ºC y ºF),
etc.

Tratamiento de los valores erróneos en las fuentes. Por ejemplo, no tiene
sentido que el día de una fecha sea mayor a 31. En este caso, se pueden
obviar los valores erróneos y no volcarlos al almacén, o bien, intentar
recuperarlos.

Tratamiento de valores ausentes (missing values) en las fuentes. Un
procedimiento típico, en este caso, es estimar aquellos valores que, por alguna
causa, aparecen vacíos.

Tratamiento de valores atípicos en las fuentes. Los valores atípicos suelen ser
contraproducentes para el análisis, ya que pueden llegar a desvirtuar los
modelos resultantes del mismo.

Normalización de valores, para llevar los diferentes atributos a una misma
escala, evitando así, la preponderancia de unos atributos sobre otros.

5

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Data Warehouse (IV)

• Posibles usos para un Data Warehouse:

• Sistemas de apoyo a la decisión.
• Herramientas de reporting (generación de

informes).

• Herramientas OLAP.
• Herramientas de minería de datos.

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

6

Modelo multidimensional (I)

• Antes de implementar, es necesario diseñar
• Hay que hacerse dos preguntas fundamentales:

• ¿Cuál es el elemento central del análisis que se

desea realizar?

• ¿Qué datos adicionales a dicho elemento resultarían

de interés para complementar y enriquecer dicho
análisis?

• La primera dará como resultado el HECHO
• La segunda, las DIMENSIONES

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

7

Modelo multidimensional (II)

• Ejemplo: Se desea construir un data warehouse para

analizar los datos relativos a los accesos de los
estudiantes a los recursos de una plataforma virtual de
aprendizaje

• ¿Cuál es el elemento central del análisis que se

desea realizar? ACCESO

• ¿Qué datos adicionales a dicho elemento

resultarían de interés para complementar y
enriquecer dicho análisis? RECURSO, AULA,
MOMENTO, ESTUDIANTE
8

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Diagrama en estrella

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

9

Diagrama en copo de nieve

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

10

Data Marts

• En ocasiones, es posible querer analizar más

de un aspecto relativo a una empresa u
organización

• En otras palabras Varios HECHOS
• Cada hecho, tendrá sus dimensiones y

conformará su propio esquema (en estrella o en
copo de nieve)

• El almacén definitivo estará compuesto por la

unión de todos esos esquemas particulares, que
se denominan, Data Marts
11

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

OLAP (I)

• Además de para Data Mining, los almacenes

suelen ser utilizados para consultas (agregadas,
normalmente), en tiempo real (OLAP)

• El almacén se ve como un cubo n-dimensional,

donde el valor de cada celda es el valor del
hecho para esa combinación de valores de las
dimensiones

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

12

OLAP (II) - Consultas

• Slice: Consiste en tomar un subconjunto rectangular de un cubo
eligiendo un valor concreto para una de las dimensiones, dando
lugar a un nuevo cubo con una dimensión menos. Continuando con
el ejemplo anterior, se podrían tomar las ventas de cada producto
en cada instante, en una ciudad determinada, por ejemplo, Madrid.

• Dice: Consiste en crear un subcubo especificando valores

determinados en varias dimensiones. Por ejemplo, se podrían
tomar las ventas de productos ocurridas en 2012 y 2013, en las
ciudades con más de 300.000 habitantes.

• Drill-down: Consiste en navegar desde una vista con menor detalle
a otra con más nivel de detalle en las dimensiones. Por ejemplo, se
podría tener una visión de las ventas a nivel de cada año, y pasar a
otra visión a nivel de ventas por día.

13

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

OLAP (III) – Consultas (cont.)

• Roll-up: Esta operación consiste en agrupar los datos a lo largo de

una dimensión, con el objetivo de calcular totales u otros valores
estadísticos (media, moda, máximo, etc.). Por ejemplo, se podría
tener una vista con los totales de ventas de productos por ciudad,
agrupando todos los datos de la dimensión tiempo.

• Pivot: Consiste en rotar el cubo para obtener diferentes

perspectivas de los datos. Por ejemplo, el cubo de la figura 4, en el
que las dimensiones producto y ciudad son las más visibles, podría
rotarse para poder tener una vista más clara de la dimensión
tiempo.

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

14

Implementación (I)

• MOLAP (Multidimensional OLAP). Según este enfoque, los
data warehouse se implementan sobre una base de datos
multidimensional, en la que existe una única tabla con una
columna para cada hecho y con una columna para cada
dimensión del esquema a almacenar.

• ROLAP (Relational OLAP). En este caso, los data

warehouse se implementan sobre una base de datos
relacional.

• HOLAP (Hybrid OLAP). Esta alternativa utiliza una base de
datos multidimensional para almacenar alguna información,
mientras que el resto se almacena en una base de datos
relacional.

15

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Implementación (II)

• Ejemplo ROLAP modelo enriquecido

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

16

Ejemplo

• Ver código fuente de ejemplo para el almacén de

acceso a recursos en un aula virtual

• Script de creación de tablas: Estudiante, Aula, Recurso,

Tiempo y Acceso

• Script de inserciones de ejemplo (en un entorno real,
esos datos sería recopilados de las fuentes de origen)

• Script con 3 consultas de interés de tipo OLAP
• Todo en SQL utilizando el SGBD MySQL
• En la siguiente actividad, veremos como se carga todo
17

en MySQL …

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Actividad. Reproducción del

ejemplo en MySQL

El profesor irá implementando el
almacén de ejemplo en MySQL con los
scripts disponibles.
Los estudiantes irán siguiendo (en
grupos) al profesor, que revisará el
resultado final.

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

18
  • Links de descarga
http://lwp-l.com/pdf3117

Comentarios de: Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5 (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad