Contenido del Curso
Descubrimiento de Conocimiento a partir de Datos
• Etapas
•
Introducción al KDD
Prof. Dra. Silvia Schiaffino
ISISTAN – UNCPBA
[email protected]
http://www.exa.unicen.edu.ar/catedras/dbdiscov/
• Pre-procesamiento de datos
• Data Mining
– Reglas de Asociación
– Redes de Bayes
– Clasificación
– Modelos de Markov
– Clustering
• Web Mining
• Social Mining
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Introducción
Motivación
• Estamos en la era de la información
• Somos ricos en datos, pero pobres en información
• Las bases de datos son demasiado grandes
• Data Mining puede ayudar a descubrir conocimiento
• Hay tecnología disponible para ayudarnos a
juntar datos
– Códigos de barra, lectores de tarjetas de débito y
redes
crédito, satélites, cámaras, celulares,
sociales, etc.
• Hay tecnología disponible para ayudarnos a
almacenar datos
– Bases de datos, data warehouses, la Web,
variedad de repositorios
• Necesitamos conocimiento:
interpretar
los
datos en búsqueda de conocimiento
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
1
Conocimiento para Apoyo a Toma de
Decisiones
¿Qué es un dato?
Conocimiento
para Apoyo a
Toma de
Decisiones
• Hechos, imágenes, sonidos...
• Los datos son la estructura fundamental
sobre la cual está construida cualquier
sistema de información.
• Ej.: 500
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
¿Qué es información?
¿Qué es conocimiento?
• Datos cuya forma o formato es útil para
• Nos da la capacidad de resolver problemas,
ser usado en el proceso de toma de
decisiones
• Ej: 500 mm de lluvia caída
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
innovar y aprender basándonos en
experiencias previas
• Una combinación de instintos, ideas, reglas y
procedimientos que guían las acciones y
decisiones
Ej: si lluvia > 200 mm inundación
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
2
De datos a conocimiento
¿Qué es KDD?
SÍNTESIS
ANÁLISIS
COMPRENSIÓN
CONOCIMENTO
INFORMACIÓN
DATOS
• El Descubrimiento de Conocimiento a partir
de Bases de Datos es el proceso no trivial de
extraer
implícita, previamente
desconocida, y potencialmente útil a partir de
grandes volúmenes de datos.
información
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
¿Qué es Data Mining?
¿Qué tipo de datos se almacenan?
• En teoría, Data Mining (minería de datos) es un paso
en el proceso de KDD.
• Es el proceso de identificación de patrones válidos,
innovadores, potencialmente útiles y comprensibles
de un conjunto de datos [Fayyad et al 96]
• En la práctica, data mining y KDD se han vuelto
sinónimos
• Términos
similares
a KDD:
conocimiento,
arqueología de datos, business intelligence, ....
descubrimiento
extracción
de
de
patrones,
Imágenes satelitales
• Transacciones de negocios
• Datos científicos
• Datos personales
• Videos e imágenes de vigilancia
•
• Deportes
•
• Software
• WWW
•
• Datos médicos y genéticos
Información digital y digitalizada
Informes y documentos
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
3
Etapas del KDD
Etapas del KDD
• Recolectar los datos y agruparlos
• Limpiar los datos y juntarlos de manera que encajen
• Seleccionar los datos necesarios
• Trabajar sobre los datos para extraer la esencia de
ellos
• Evaluar la salida y usarla
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Etapas del KDD
Identificación del Problema
• Aprender acerca del dominio de aplicación (conocimiento previo
relevante y objetivos de la aplicación)
• Recolectar e integrar los datos
• Limpiar y preprocesar los datos
• Reducir y proyectar los datos (encontrar características útiles,
reducción de dimensionalidad/variable)
• Elegir las funciones de data mining (clasificación, regresión,
asociación, clustering)
• Elegir los algoritmos
• Data Mining: buscar patrones de interés
• Evaluar los resultados
•
Interpretar y analizar los resultados (visualización, eliminación
de patrones redundantes)
• Usar el conocimiento descubierto
• Estudio
del
dominio
de
aplicación:
obtener
conocimiento inicial del dominio
• Definición de los objetivos y metas a ser alcanzados
•
Identificación y selección de conjuntos de datos
• Definir la relación entre simplicidad y precisión del
conocimiento extraído
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
4
Identificación del Problema: Ejemplo
Data Mining: ¿sobre qué tipos de datos?
Se quieren analizar los datos de compras en un
supermercado para identificar patrones de compras
de los clientes, particularmente grupos de productos
que se adquieren juntos.
Se trabajará con las compras almacenadas de 1 mes.
Se quieren encontrar patrones simples y precisos.
• Archivos planos (texto, binarios)
• Bases de datos heterogéneas
• Bases de datos relacionales
• Bases de datos orientadas a objetos
• Data warehouses
• Bases de datos transaccionales
• Bases de datos espaciales
• Bases de datos multimedia
• Datos temporales
• Documentos de texto
• WWW: contenido, estructura, uso
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Sobre que tipo de datos? Bases de Datos
relacionales
Sobre que tipo de datos? Bases de Datos
transaccionales
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
5
Sobre qué tipo de datos? Data Warehouses
Sobre qué tipos de datos? Datos en series
temporales
Un data warehouse es un repositorio de datos obtenido
a partir de múltiples fuentes de datos (a menudo
heterogéneas) y su propósito es ser utilizado como
un todo bajo un mismo esquema unificado para toma
de decisiones.
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Pre-procesamiento
Pre-procesamiento
• Generalmente, los datos utilizados en el proceso de
KDD no son adecuados para ser usados en la etapa
de Extracción de Patrones
• Los datos pueden presentar diversos problemas:
– Ruido
– Datos incompletos
– Formato inadecuado
– Grandes volúmenes
• El pre-procesamiento consiste en la aplicación de
técnicas con el objetivo de adecuar los datos para
ser utilizados en la etapa de Extracción de Patrones
• Obtención y unificación de datos
• Limpieza de datos
• Reducción del volumen de datos
– Reducción del número de ejemplos
– Reducción del número de atributos
– Reducción del número de valores de un atributo
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
6
Extracción de patrones
Selección de la función
Puede ser ejecutada varias veces para ajustar los
parámetros de los algoritmos y de esa forma obtener
un resultado más adecuado
Sub-etapas:
• Selección de una función
– Descriptiva o predictiva
• Selección de un algoritmo
– Algoritmo y parámetros
• Transformación de los datos
• Obtención de patrones
– Aplicación del algoritmo a los datos
• Tareas Descriptivas
– Describen propiedades generales de los datos
existentes
• Asociación
• Clustering
• Tareas Predictivas
– Predicciones basándose en inferencias a partir de
los datos disponibles
• Clasificación
• Regresión
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Funcionalidad
Funcionalidad
• Asociación:
• Clasificación:
– Estudia la frecuencia de ocurrencia de elementos
que aparecen
juntos en bases de datos
transaccionales. Ej. compra(x, leche)compra(x,
pan)
– Organiza los datos en clases dadas basándose en
los atributos de los objetos a clasificar. Ej:
clasificar a los alumnos según su estilo de
aprendizaje
• Predicción:
• Clustering:
– Predice algún atributo desconocido o faltante
basándose en otra información; o predice la clase
de un objeto. Ej. predecir el valor de venta para la
próxima semana de un cereal basándose en
datos actuales
– Organiza los datos en grupos basándose en sus
atributos (clasificación no supervisada) Ej. agrupar
lugares donde se producen crímenes para
encontrar patrones de distribución.
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
Descubrimiento de Conocimiento a partir de datos
Prof. Dra. Silvia Schiaffino
7
Funcionalidad
Selección del Algoritmo
• Análisis de Excepciones (Outliers):
• Hay varios algoritmos disponibles para cada
– I
Comentarios de: Descubrimiento de Conocimiento a partir de Datos (0)
No hay comentarios