Introducción al Data
Introducción al Data Mining
Mining
© Fernando Berzal,
[email protected]
© Fernando Berzal,
[email protected]
Introducción al Data Mining
Introducción al Data
Mining
Knowledge Discovery
Discovery in in Databases
Databases))
¿Qué es la minería de datos?
¿Qué es la minería de datos?
Aplicaciones
Aplicaciones
KDD (Knowledge
KDD (
El proceso de extracción de conocimiento
El proceso de extracción de conocimiento
Carácter multidisciplinar
Carácter multidisciplinar
Carácter multidisciplinar
Carácter multidisciplinar
Técnicas de minería de datos
Técnicas de minería de datos
Modelos descriptivos y modelos predictivos
Modelos descriptivos y modelos predictivos
Clasificación de las técnicas de minería de datos
Clasificación de las técnicas de minería de datos
Fuentes de datos
Fuentes de datos
Evaluación de resultados
Evaluación de resultados
Sistemas de minería de datos
Sistemas de minería de datos
11
¿Qué es la minería de datos?
¿Qué es la minería de datos?
Extracción de patrones (“conocimiento”)
Extracción de patrones (“conocimiento”)
en en grandes
grandes bases de datos.
bases de datos.
¿Qué es la minería de datos?
¿Qué es la minería de datos?
Extracción de
Extracción de conocimiento
conocimiento
en grandes bases de datos.
en grandes bases de datos.
Requisitos
Requisitos
No trivial
No trivial
Implícito
Implícito
Previamente desconocido
Previamente
desconocido
Potencialmente útilútil
Potencialmente
22
33
¿Qué es la minería de datos?
¿Qué es la minería de datos?
Definiciones
Definiciones
“Non
“Non--trivial extraction of implicit, previously unknown
trivial extraction of implicit, previously unknown
and potentially useful information from data.”
and potentially useful information from data.”
Piatetsky--Shapiro &
Piatetsky--Shapiro &
Frawley
Frawley, , Piatetsky
Frawley
Frawley, , Piatetsky
Knowledge Discovery in Databases: An Overview.
Knowledge Discovery in Databases: An Overview.
MIT Press, 1991.
MIT Press, 1991.
Shapiro & Matheus
Shapiro & Matheus
Matheus: :
Matheus: :
“Exploration and analysis, by automatic or
“Exploration and analysis, by automatic or
semi
semi--automatic means, of large quantities of data in
automatic means, of large quantities of data in
order to discover meaningful patterns.”
order to discover meaningful patterns.”
Linoff: :
Berry &
Berry & Linoff
Data Mining Techniques.
Data Mining Techniques.
Wiley, 1997
Wiley, 1997
¿Qué es la minería de datos?
¿Qué es la minería de datos?
How can I analyze this data?
Knowledge
“Data rich,
Information poor”
Conocimiento
(patrones interesantes)
44
55
Aplicaciones
Aplicaciones
analysis (compras)
(compras)
basket analysis
Market
Market basket
Perfiles de usuario en la Web
Perfiles de usuario en la Web
Segmentación de clientes
Segmentación de clientes
Detección de fraudes / intrusos
Detección de fraudes / intrusos
…… ……
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
Extracción de conocimiento en bases de datos
Extracción de conocimiento en bases de datos
66
77
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
El proceso de extracción de conocimiento
El proceso de extracción de conocimiento
Limpieza de datos
Limpieza de datos
(eliminación de ruido e inconsistencias)
(eliminación de ruido e inconsistencias)
Integración de datos
Integración de datos
(combinación de múltiples fuentes de datos)
(combinación de múltiples fuentes de datos)
Reducción/Selección de datos
Reducción/Selección de datos
Reducción/Selección de datos
Reducción/Selección de datos
(identificación de datos relevantes para el problema)
(identificación de datos relevantes para el problema)
Transformación de datos
Transformación de datos
(preparación de los datos para su análisis)
(preparación de los datos para su análisis)
Minería de datos
Minería de datos
(técnicas de extracción de patrones y medidas de interés)
(técnicas de extracción de patrones y medidas de interés)
Presentación de resultados
Presentación de resultados
(técnicas de visualización y de representación del conocimiento)
(técnicas de visualización y de representación del conocimiento)
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
Extracción de conocimiento en bases de datos:
Extracción de conocimiento en bases de datos:
88
99
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
Carácter multidisciplinar
Carácter multidisciplinar
Gestión de grandes cantidades de datos
Gestión de grandes cantidades de datos
Evaluación de resultados
Evaluación de resultados
Resumen de datos
Resumen de datos
Bases de datos
Estadística
Data Mining
IA
Visualización
Aprendizaje
Aprendizaje
Presentación de resultados
Presentación de resultados
1010
Representación del conocimiento
Representación del conocimiento
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
“I keep saying the sexy job in the next ten years will be
“I keep saying the sexy job in the next ten years will be
statisticians. People think I’m joking, but who would’ve
statisticians. People think I’m joking, but who would’ve
guessed that computer engineers would’ve been the sexy
guessed that computer engineers would’ve been the sexy
job of the 1990s? The ability to take data
job of the 1990s? The ability to take data——to be able to
to be able to
understand it, to process it, to extract value from it, to
understand it, to process it, to extract value from it, to
visualize it, to communicate it——that’s going to be a hugely
visualize it, to communicate it
visualize it, to communicate it
visualize it, to communicate it——that’s going to be a hugely
that’s going to be a hugely
that’s going to be a hugely
important skill in the next decades…
important skill in the next decades…
Because now we really do have essentially free and
Because now we really do have essentially free and
ubiquitous data. So the complimentary scarce factor is the
ubiquitous data. So the complimentary scarce factor is the
ability to understand that data and extract value from it.”
ability to understand that data and extract value from it.”
Hal R. Varian
Hal R. Varian
Google’s Chief Economist
Google’s Chief Economist
Professor of Information Sciences, Business, and Economics
Professor of Information Sciences, Business, and Economics
at the University of California at Berkeley
at the University of California at Berkeley
1111
KDD
KDD ((Knowledge
Knowledge Discovery
Discovery in in Databases
Databases))
Extracción de conocimiento en bases de datos:
Extracción de conocimiento en bases de datos:
Técnicas de minería de datos
Técnicas de minería de datos
Modelos de minería de datos
Modelos de minería de datos
1212
1313
Técnicas de minería de datos
Técnicas de minería de datos
Clasificación de los modelos de minería de datos
Clasificación de los modelos de minería de datos
En función de su propósito general:
En función de su propósito general:
Modelos descriptivos
Modelos descriptivos
Modelos descriptivos
Modelos descriptivos
(describen el comportamiento de los datos de forma
(describen el comportamiento de los datos de forma
que sea interpretable por un usuario experto).
que sea interpretable por un usuario experto).
Modelos predictivos
Modelos predictivos
(además de describir los datos, se utilizan para
(además de describir los datos, se utilizan para
predecir el valor de algún atributo desconocido).
predecir el valor de algún atributo desconocido).
1414
Técnicas de minería de datos
Técnicas de minería de datos
Ejemplos
Ejemplos
Reglas de asociación (modelo descriptivo)
Reglas de asociación (modelo descriptivo)
Los compradores de pañales también suelen comprar cerveza.
Los compradores de pañales también suelen comprar cerveza.
Clustering
Clustering
Clustering (modelo descriptivo)
Clustering (modelo descriptivo)
(modelo descriptivo)
(modelo descriptivo)
Segmentación de los clientes de un hipermercado:
Segmentación de los clientes de un hipermercado:
-- Clientes ocasionales que gastan mucho.
Clientes ocasionales que gastan mucho.
Clientes habituales con presupuesto limitado.
-- Clientes habituales con presupuesto limitado.
-- Clientes ocasionales con presupuesto limitado.
Clientes ocasionales con presupuesto limitado.
Clasificación (modelo predictivo):
Clasificación (modelo predictivo):
-- Datagramas que corresponden a intentos de intrusión.
Datagramas que corresponden a intentos de intrusión.
-- Perfil de un cliente de alto riesgo para préstamos bancarios.
Perfil de un cliente de alto riesgo para préstamos bancarios.
1515
Técnicas de minería de datos
Técnicas de minería de datos
Algunas técnicas de minería de datos
Algunas técnicas de minería de datos
Caracterización o resumen
Caracterización o resumen
Discriminación o contraste
Discriminación o contraste
Patrones frecuentes, asociaciones y correlaciones
Patrones frecuentes, asociaciones y correlaciones
Patrones frecuentes, asociaciones y correlaciones
Patrones frecuentes, asociaciones y correlaciones
Clasificación y predicción
Clasificación y predicción
Detección de agrupamientos (clustering
Detección de agrupamientos (
clustering))
Detección de anomalías (outliers
Detección de anomalías (
outliers))
Análisis de tendencias (series temporales)
Análisis de tendencias (series temporales)
Técnicas de minería de datos
Técnicas de minería de datos
Las técnicas de minería de datos
Las técnicas de minería de datos
también se pueden clasificar atendiendo a…
también se pueden clasificar atendiendo a…
el tipo de datos que hay que analizar
el tipo de datos que hay que analizar
el tipo de datos que hay que analizar
el tipo de datos que hay que analizar
el tipo de “conocimiento” que se obtiene
el tipo de “conocimiento” que se obtiene
el t
Comentarios de: Introducción al Data Mining (0)
No hay comentarios