PDF de programación - Clasificación y predicción

Imágen de pdf Clasificación y predicción

Clasificación y prediccióngráfica de visualizaciones

Publicado el 16 de Abril del 2017
1.263 visualizaciones desde el 16 de Abril del 2017
2,3 MB
62 paginas
Creado hace 13a (13/04/2011)
Clasificación y predicción
Clasificación y predicción
© Fernando Berzal, [email protected]
© Fernando Berzal,
[email protected]

Clasificación y predicción
Clasificación y predicción

Introducción
 Introducción
Uso y construcción de modelos de clasificación
 Uso y construcción de modelos de clasificación
 Evaluación de la precisión de un modelo de clasificación
Evaluación de la precisión de un modelo de clasificación
 El problema del
El problema del sobreaprendizaje
sobreaprendizaje
 Modelos de clasificación
Modelos de clasificación
 Árboles de decisión
Árboles de decisión
 Inducción de reglas
Inducción de reglas
 Evaluación
Evaluación
Métricas
 Métricas
 Métodos de evaluación
Métodos de evaluación
Técnicas de regresión
 Técnicas de regresión
 Apéndice: Otros modelos de clasificación
Apéndice: Otros modelos de clasificación

11

Introducción
Introducción

Clasificación vs. Predicción
Clasificación vs. Predicción

 Clasificación:
Clasificación:
Para predecir el valor de un atributo categórico
Para predecir el valor de un atributo categórico
(discreto o nominal).
(discreto o nominal).
(discreto o nominal).
(discreto o nominal).

Predicción:
 Predicción:
Para modelar funciones que toman valores continuos
Para modelar funciones que toman valores continuos
(esto es, predecir valores numéricos desconocidos).
(esto es, predecir valores numéricos desconocidos).

Introducción
Introducción

Aplicaciones
Aplicaciones

 Concesión de créditos
Concesión de créditos

 Campañas de marketing dirigido
 Campañas de marketing dirigido
Campañas de marketing dirigido
Campañas de marketing dirigido

 Diagnóstico médico
Diagnóstico médico

 Detección de fraudes
Detección de fraudes

 ……

22

33

Introducción
Introducción

Construcción del modelo
Construcción del modelo
 El conjunto de datos utilizado para
El conjunto de datos utilizado para
construir el modelo de clasificación
construir el modelo de clasificación
se denomina conjunto de entrenamiento
se denomina
conjunto de entrenamiento..
Cada caso/tupla
Cada caso/tupla
predeterminada: los casos de entrenamiento vienen
predeterminada: los casos de entrenamiento vienen
etiquetados por su atributo de clase.
etiquetados por su atributo de clase.

tupla/muestra corresponde a una clase
tupla/muestra corresponde a una clase
/muestra corresponde a una clase
/muestra corresponde a una clase

 Cada caso/
 Cada caso/

Uso del modelo
Uso del modelo
 El modelo construido a partir del conjunto de
El modelo construido a partir del conjunto de
entrenamiento se utiliza para clasificar nuevos datos.
entrenamiento se utiliza para clasificar nuevos datos.

Introducción
Introducción

Aprendizaje
Aprendizaje
Supervisado vs. No Supervisado
Supervisado vs. No Supervisado

 Aprendizaje supervisado

Aprendizaje supervisado ((clasificación
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
Los casos del conjunto de entrenamiento aparecen
etiquetados con la clase a la que corresponden.
etiquetados con la clase a la que corresponden.

clasificación): ):

 Aprendizaje no supervisado

Aprendizaje no supervisado ((clustering
No se conocen las clases de los casos del conjunto de
No se conocen las clases de los casos del conjunto de
entrenamiento (ni siquiera su existencia).
entrenamiento (ni siquiera su existencia).

clustering) : ) :

44

55

Introducción
Introducción

Tid Attrib1

Attrib2

Attrib3 Class

1

2

3

4

5

6

7
7

8

9

Yes

Large

125K

No

No

Medium

100K

Small

70K

Yes

Medium

120K

No

No

Large

95K

Medium

60K

Yes
Yes

Large
Large

220K
220K

No

No

Small

85K

Medium

75K

10 No

Small

90K

No

No

No

No

Yes

No

No
No

Yes

No

Yes

Tid Attrib1

Attrib2

Attrib3 Class

11 No

Small

55K

12 Yes

Medium

80K

13 Yes

Large

110K

14 No

Small

15 No

Large

95K

67K

?

?

?

?

?

10



10



Introducción
Introducción

Estimación de la precisión del modelo
Estimación de la precisión del modelo

Antes de construir el modelo de clasificación,
Antes de construir el modelo de clasificación,
se divide el conjunto de datos disponible en
se divide el conjunto de datos disponible en

 un un conjunto de entrenamiento
conjunto de entrenamiento

(para construir el modelo) y
(para construir el modelo) y

 un un conjunto de prueba
conjunto de prueba
(para evaluar el modelo).
(para evaluar el modelo).

66

77

Introducción
Introducción

Estimación de la precisión del modelo
Estimación de la precisión del modelo

 Una vez construido el modelo a partir del conjunto de
Una vez construido el modelo a partir del conjunto de
entrenamiento, se usa dicho modelo para clasificar los
entrenamiento, se usa dicho modelo para clasificar los
datos del conjunto de prueba:
datos del conjunto de prueba:
datos del conjunto de prueba:
datos del conjunto de prueba:
 Comparando los casos etiquetados del conjunto de
Comparando los casos etiquetados del conjunto de
prueba con el resultado de aplicar el modelo,
prueba con el resultado de aplicar el modelo,
se obtiene un
se obtiene un porcentaje de clasificación
porcentaje de clasificación..
Si la precisión del clasificador es aceptable,
 Si la precisión del clasificador es aceptable,
podremos utilizar el modelo para clasificar nuevos
podremos utilizar el modelo para clasificar nuevos
casos (de los que desconocemos realmente su clase).
casos (de los que desconocemos realmente su clase).

88

Introducción
Introducción

El problema del sobreaprendizaje
El problema del
sobreaprendizaje

 Cuanto mayor sea su complejidad, los modelos de
Cuanto mayor sea su complejidad, los modelos de
clasificación tienden a ajustarse más al conjunto de
clasificación tienden a ajustarse más al conjunto de
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
entrenamiento utilizado en su construcción
((sobreaprendizaje
sobreaprendizaje), lo que los hace menos útiles
), lo que los hace menos útiles
para clasificar nuevos datos.
para clasificar nuevos datos.

En consecuencia, el conjunto de prueba debe ser
 En consecuencia, el conjunto de prueba debe ser
siempre independiente del conjunto de entrenamiento.
siempre independiente del conjunto de entrenamiento.

El error de clasificación en el conjunto de
 El error de clasificación en el conjunto de
entrenamiento NONO es un buen estimador de la
entrenamiento
es un buen estimador de la
precisión del clasificador.
precisión del clasificador.

99

Introducción
Introducción

Sobreaprendizaje
Sobreaprendizaje
debido a la complejidad del clasificador
debido a la complejidad del clasificador

Introducción
Introducción

Sobreaprendizaje
Sobreaprendizaje
debido a la presencia de ruido en los datos:
debido a la presencia de ruido en los datos:

1010

1111

Introducción
Introducción

Sobreaprendizaje
Sobreaprendizaje
debido a la escasez de muestras:
debido a la escasez de muestras:

Modelos de clasificación
Modelos de clasificación

Se pueden construir distintos tipos de clasificadores:
Se pueden construir distintos tipos de clasificadores:

Árboles de decisión
 Árboles de decisión
 Reglas (p.ej. listas de decisión)
Reglas (p.ej. listas de decisión)
 Clasificadores basados en casos
 Clasificadores basados en casos
Clasificadores basados en casos
Clasificadores basados en casos
 Clasificadores paramétricos
Clasificadores paramétricos
 Redes neuronales
Redes neuronales
Redes bayesianas
 Redes bayesianas
 SVMs
SVMs ((Support
 ……

Support Vector Machines)
Vector Machines)

1212

1313

Árboles de decisión
Árboles de decisión

Refund Marital
Status

Taxable
Income Cheat

No

10



Married

80K

?

Married

NO

Yes

NO

No

MarSt

Refund

Single,
Divorced

TaxInc

< 80K

> 80K

NO

YES

1414

Árboles de decisión
Árboles de decisión

Refund Marital
Status

Taxable
Income Cheat

No

10



Married 80K

?

Married

NO

Yes

NO

No

MarSt

Refund

Single,
Divorced

TaxInc

< 80K

> 80K

NO

YES

1515

Árboles de decisión
Árboles de decisión

Refund Marital
Status

Taxable
Income Cheat

No

10



Married 80K

NO

Married

NO

Clase ‘
Clase ‘NO’NO’

Yes

NO

No

MarSt

Refund

Single,
Divorced

TaxInc

< 80K

> 80K

NO

YES

1616

Árboles de decisión
Árboles de decisión

Tid Refund Marital
Status

Taxable
Income Cheat

1

2

3

4

5

6

7

8

9

No

No

10 No

10

Yes

Single

125K

No

No

Married

100K

Single

70K

Yes

Married

120K

No

No

Divorced 95K

Married

60K

Yes

Divorced 220K

Single

85K

Married

75K

Single

90K

No

No

No

No

Yes

No

No

Yes

No

Yes

Yes

NO

No

MarSt

Refund

Single,
Divorced

TaxInc

< 80K

> 80K

NO

YES

Married

NO

17

Conjunto de
entrenamiento

Modelo de clasificación:

Árbol de decisión

1717

Árboles de decisión
Árboles de decisión

Tid Refund Marital
Status

Taxable
Income Cheat

1

2

3

4

5

6

7

8

9

No

No

10 No

10

Yes

Single

125K

No

No

Married

100K

Single

70K

Yes

Married

120K

No

No

Divorced 95K

Married

60K

Yes

Divorced 220K

Single

85K

Married

75K

Single

90K

No

No

No

No

Yes

No

No

Yes

No

Yes

Podemos construir distintos árboles:
Podemos construir distintos árboles:
¿cuál es mejor?
¿cuál es mejor?

MarSt

Single,
Divorced

Refund

Married

NO

Yes

NO

No

TaxInc

< 80K

> 80K

NO

YES

18

Conjunto de
entrenamiento

Modelo de clasificación:

Árbol de decisión

1818

Árboles de decisión
Árboles de decisión

Construcción de árboles de decisión
Construcción de árboles de decisión

 Estrategia

Estrategia greedy

greedy (problema NP)
(problema NP)

 Algoritmo “divide y vencerás”:
 Algoritmo “divide y vencerás”:
Algoritmo “divide y vencerás”:
Algoritmo “divide y vencerás”:
Comenzamos con todos los ejemplos de
 C
  • Links de descarga
http://lwp-l.com/pdf3041

Comentarios de: Clasificación y predicción (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad