Clasificación y predicción
Clasificación y predicción
© Fernando Berzal,
[email protected]
© Fernando Berzal,
[email protected]
Clasificación y predicción
Clasificación y predicción
Introducción
Introducción
Uso y construcción de modelos de clasificación
Uso y construcción de modelos de clasificación
Evaluación de la precisión de un modelo de clasificación
Evaluación de la precisión de un modelo de clasificación
El problema del
El problema del sobreaprendizaje
sobreaprendizaje
Modelos de clasificación
Modelos de clasificación
Árboles de decisión
Árboles de decisión
Inducción de reglas
Inducción de reglas
Evaluación
Evaluación
Métricas
Métricas
Métodos de evaluación
Métodos de evaluación
Técnicas de regresión
Técnicas de regresión
Apéndice: Otros modelos de clasificación
Apéndice: Otros modelos de clasificación
11
Introducción
Introducción
Clasificación vs. Predicción
Clasificación vs. Predicción
Clasificación:
Clasificación:
Para predecir el valor de un atributo categórico
Para predecir el valor de un atributo categórico
(discreto o nominal).
(discreto o nominal).
(discreto o nominal).
(discreto o nominal).
Predicción:
Predicción:
Para modelar funciones que toman valores continuos
Para modelar funciones que toman valores continuos
(esto es, predecir valores numéricos desconocidos).
(esto es, predecir valores numéricos desconocidos).
Introducción
Introducción
Aplicaciones
Aplicaciones
Concesión de créditos
Concesión de créditos
Campañas de marketing dirigido
Campañas de marketing dirigido
Campañas de marketing dirigido
Campañas de marketing dirigido
Diagnóstico médico
Diagnóstico médico
Detección de fraudes
Detección de fraudes
……
22
33
Introducción
Introducción
Construcción del modelo
Construcción del modelo
El conjunto de datos utilizado para
El conjunto de datos utilizado para
construir el modelo de clasificación
construir el modelo de clasificación
se denomina conjunto de entrenamiento
se denomina
conjunto de entrenamiento..
Cada caso/tupla
Cada caso/tupla
predeterminada: los casos de entrenamiento vienen
predeterminada: los casos de entrenamiento vienen
etiquetados por su atributo de clase.
etiquetados por su atributo de clase.
tupla/muestra corresponde a una clase
tupla/muestra corresponde a una clase
/muestra corresponde a una clase
/muestra corresponde a una clase
Cada caso/
Cada caso/
Uso del modelo
Uso del modelo
El modelo construido a partir del conjunto de
El modelo construido a partir del conjunto de
entrenamiento se utiliza para clasificar nuevos datos.
entrenamiento se utiliza para clasificar nuevos datos.
Introducción
Introducción
Aprendizaje
Aprendizaje
Supervisado vs. No Supervisado
Supervisado vs. No Supervisado
Aprendizaje supervisado
Aprendizaje supervisado ((clasificación
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
etiquetados con la clase a la que corresponden.
etiquetados con la clase a la que corresponden.
clasificación): ):
Aprendizaje no supervisado
Aprendizaje no supervisado ((clustering
No se conocen las clases de los casos del conjunto de
No se conocen las clases de los casos del conjunto de
entrenamiento (ni siquiera su existencia).
entrenamiento (ni siquiera su existencia).
clustering) : ) :
44
55
Introducción
Introducción
Tid Attrib1
Attrib2
Attrib3 Class
1
2
3
4
5
6
7
7
8
9
Yes
Large
125K
No
No
Medium
100K
Small
70K
Yes
Medium
120K
No
No
Large
95K
Medium
60K
Yes
Yes
Large
Large
220K
220K
No
No
Small
85K
Medium
75K
10 No
Small
90K
No
No
No
No
Yes
No
No
No
Yes
No
Yes
Tid Attrib1
Attrib2
Attrib3 Class
11 No
Small
55K
12 Yes
Medium
80K
13 Yes
Large
110K
14 No
Small
15 No
Large
95K
67K
?
?
?
?
?
10
10
Introducción
Introducción
Estimación de la precisión del modelo
Estimación de la precisión del modelo
Antes de construir el modelo de clasificación,
Antes de construir el modelo de clasificación,
se divide el conjunto de datos disponible en
se divide el conjunto de datos disponible en
un un conjunto de entrenamiento
conjunto de entrenamiento
(para construir el modelo) y
(para construir el modelo) y
un un conjunto de prueba
conjunto de prueba
(para evaluar el modelo).
(para evaluar el modelo).
66
77
Introducción
Introducción
Estimación de la precisión del modelo
Estimación de la precisión del modelo
Una vez construido el modelo a partir del conjunto de
Una vez construido el modelo a partir del conjunto de
entrenamiento, se usa dicho modelo para clasificar los
entrenamiento, se usa dicho modelo para clasificar los
datos del conjunto de prueba:
datos del conjunto de prueba:
datos del conjunto de prueba:
datos del conjunto de prueba:
Comparando los casos etiquetados del conjunto de
Comparando los casos etiquetados del conjunto de
prueba con el resultado de aplicar el modelo,
prueba con el resultado de aplicar el modelo,
se obtiene un
se obtiene un porcentaje de clasificación
porcentaje de clasificación..
Si la precisión del clasificador es aceptable,
Si la precisión del clasificador es aceptable,
podremos utilizar el modelo para clasificar nuevos
podremos utilizar el modelo para clasificar nuevos
casos (de los que desconocemos realmente su clase).
casos (de los que desconocemos realmente su clase).
88
Introducción
Introducción
El problema del sobreaprendizaje
El problema del
sobreaprendizaje
Cuanto mayor sea su complejidad, los modelos de
Cuanto mayor sea su complejidad, los modelos de
clasificación tienden a ajustarse más al conjunto de
clasificación tienden a ajustarse más al conjunto de
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
((sobreaprendizaje
sobreaprendizaje), lo que los hace menos útiles
), lo que los hace menos útiles
para clasificar nuevos datos.
para clasificar nuevos datos.
En consecuencia, el conjunto de prueba debe ser
En consecuencia, el conjunto de prueba debe ser
siempre independiente del conjunto de entrenamiento.
siempre independiente del conjunto de entrenamiento.
El error de clasificación en el conjunto de
El error de clasificación en el conjunto de
entrenamiento NONO es un buen estimador de la
entrenamiento
es un buen estimador de la
precisión del clasificador.
precisión del clasificador.
99
Introducción
Introducción
Sobreaprendizaje
Sobreaprendizaje
debido a la complejidad del clasificador
debido a la complejidad del clasificador
Introducción
Introducción
Sobreaprendizaje
Sobreaprendizaje
debido a la presencia de ruido en los datos:
debido a la presencia de ruido en los datos:
1010
1111
Introducción
Introducción
Sobreaprendizaje
Sobreaprendizaje
debido a la escasez de muestras:
debido a la escasez de muestras:
Modelos de clasificación
Modelos de clasificación
Se pueden construir distintos tipos de clasificadores:
Se pueden construir distintos tipos de clasificadores:
Árboles de decisión
Árboles de decisión
Reglas (p.ej. listas de decisión)
Reglas (p.ej. listas de decisión)
Clasificadores basados en casos
Clasificadores basados en casos
Clasificadores basados en casos
Clasificadores basados en casos
Clasificadores paramétricos
Clasificadores paramétricos
Redes neuronales
Redes neuronales
Redes bayesianas
Redes bayesianas
SVMs
SVMs ((Support
……
Support Vector Machines)
Vector Machines)
1212
1313
Árboles de decisión
Árboles de decisión
Refund Marital
Status
Taxable
Income Cheat
No
10
Married
80K
?
Married
NO
Yes
NO
No
MarSt
Refund
Single,
Divorced
TaxInc
< 80K
> 80K
NO
YES
1414
Árboles de decisión
Árboles de decisión
Refund Marital
Status
Taxable
Income Cheat
No
10
Married 80K
?
Married
NO
Yes
NO
No
MarSt
Refund
Single,
Divorced
TaxInc
< 80K
> 80K
NO
YES
1515
Árboles de decisión
Árboles de decisión
Refund Marital
Status
Taxable
Income Cheat
No
10
Married 80K
NO
Married
NO
Clase ‘
Clase ‘NO’NO’
Yes
NO
No
MarSt
Refund
Single,
Divorced
TaxInc
< 80K
> 80K
NO
YES
1616
Árboles de decisión
Árboles de decisión
Tid Refund Marital
Status
Taxable
Income Cheat
1
2
3
4
5
6
7
8
9
No
No
10 No
10
Yes
Single
125K
No
No
Married
100K
Single
70K
Yes
Married
120K
No
No
Divorced 95K
Married
60K
Yes
Divorced 220K
Single
85K
Married
75K
Single
90K
No
No
No
No
Yes
No
No
Yes
No
Yes
Yes
NO
No
MarSt
Refund
Single,
Divorced
TaxInc
< 80K
> 80K
NO
YES
Married
NO
17
Conjunto de
entrenamiento
Modelo de clasificación:
Árbol de decisión
1717
Árboles de decisión
Árboles de decisión
Tid Refund Marital
Status
Taxable
Income Cheat
1
2
3
4
5
6
7
8
9
No
No
10 No
10
Yes
Single
125K
No
No
Married
100K
Single
70K
Yes
Married
120K
No
No
Divorced 95K
Married
60K
Yes
Divorced 220K
Single
85K
Married
75K
Single
90K
No
No
No
No
Yes
No
No
Yes
No
Yes
Podemos construir distintos árboles:
Podemos construir distintos árboles:
¿cuál es mejor?
¿cuál es mejor?
MarSt
Single,
Divorced
Refund
Married
NO
Yes
NO
No
TaxInc
< 80K
> 80K
NO
YES
18
Conjunto de
entrenamiento
Modelo de clasificación:
Árbol de decisión
1818
Árboles de decisión
Árboles de decisión
Construcción de árboles de decisión
Construcción de árboles de decisión
Estrategia
Estrategia greedy
greedy (problema NP)
(problema NP)
Algoritmo “divide y vencerás”:
Algoritmo “divide y vencerás”:
Algoritmo “divide y vencerás”:
Algoritmo “divide y vencerás”:
Comenzamos con todos los ejemplos de
C
Comentarios de: Clasificación y predicción (0)
No hay comentarios