PDF de programación - Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 4 Clasificación y regresión

Imágen de pdf Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 4 Clasificación y regresión

Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 4 Clasificación y regresióngráfica de visualizaciones

Publicado el 16 de Abril del 2017
648 visualizaciones desde el 16 de Abril del 2017
868,3 KB
10 paginas
Creado hace 13a (14/03/2011)
Sistemas Inteligentes de Gestión
Sistemas Inteligentes de Gestión



Guión de Prácticas de Minería de Datos
Guión de Prácticas de Minería de Datos


Práctica 4

Clasificación y regresión



© Juan Carlos Cubero

Juan Carlos Cubero & Fernando Berzal



FICHEROS DE DATOS



Datos de empleados.sav
Mundo 95.sav
agaricus-lepiota.csv
iris.csv
credit-german.arff



Regresión.doc
Regresión.spo


EҭTREGA DE LA PRÁCTICA



Clasificación.doc
Clasificación_Mushroom.knime.zip
Clasificación_Mushroom.knime.zip
Clasificación_Iris.knime.zip
Clasificación_Iris.knime.zip
Clasificación_Credit.knime.zip
Clasificación_Credit.knime.zip



Sistemas Inteligentes de Gestión: Clasificación

asificación 1





Ejercicios tipo C: Regresión



Datos de empleados

Ejecute SPSS y abra el fichero "Datos de empleados".

En Gráficos > Interactivos > Diagrama de dispersión, seleccione Salario actual como
variable dependiente y Salario Inicial como variable independiente.

En la pestaña Ajuste, seleccione Regresión en la lista desplegable asociada a Método y
marque la casilla que indica "Incluir constante en la ecuación".


$1 60,00 0

$1 20,00 0

$8 0,000

$4 0,000

l

a
u
t
c
a
o
i
r
a



l

a
S

1Salario actual = 1928,21 + 1,91 * salini
R-cuadrado = 0,77

A

Regresión lineal

A

A

A

A

A
A
A

A

A

A

A

A

A

A

A

A
A

A

A

A

A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
AA A
A
AA
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
A A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
AA
AA
A
A
A
AAA
A
A
A
A
AAA
A
A
A
AA
AA
A
A
AA
AA
A A
A A
A A
A
A
A
A
A
A
AA
A
AA
A
AAA
A
A
A
A
A
A
AAA
AA
A
A
A
A
A
A
AA
A
AA
A
AA
A
A
A
A
A
A A
AA
A
AA
A
AA
A
A
AA
AA
A
A
A
A
AA
AAAA
AAAA
A
A
A
A
AA
A
AA
AAA
A AA
A
A
A
A
A
A
A
A
AAA
A
AAA
A
A
A
AA
A
A
AAA A
A
A AAA A
AAA
A
A
A
A
AA
A
A
A
A
AA
A
A
A
AA
A
A
A
A
AA
AA
A
A
AAA
A
A
A
AA
AAAAA
A
AA
A
A
AAAA
A
AA
A
A
A
A A
A
A
A
A
AAA
A
A
AA
AAA
A
A
A
AA
AAA
A
A
A
AA
AAA
A
A
A
AA
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A

$2 0,000

$4 0,000

$6 0,000

$8 0,000

Salario inicial



Con esto podemos comprobar gráficamente si tiene sentido plantear un modelo de
regresión lineal (es decir, si se aprecia, aunque sea aproximadamente, una relación
lineal entre las dos variables). El visor de resultados de SPSS también nos muestra el
coeficiente de correlación al cuadrado (R-cuadrado)

Guarde el contenido del visor en el fichero Regresión.spo, copie el gráfico obtenido e
inclúyalo en su fichero Regresión.doc, junto con su análisis de los resultados
obtenidos.


Mundo 95

A continuación, sobre el fichero de datos Mundo 95.sav, construya un diagrama de
dispersión y cree un modelo de regresión lineal utilizando Mortalidad Infantil como
variable dependiente e Ingesta diaria de calorías como variable independiente. No
olvide guardar el contenido del visor SPSS en el fichero Regresión.spo, copiar el
gráfico obtenido en Regresión.doc e incluir su interpretación de los resultados
obtenidos.

Sistemas Inteligentes de Gestión: Clasificación 2





Ejercicios tipo C: Clasificación (manual)



Construya un conjunto de datos artificial que consistirá en una tabla con cinco atributos
(A, B, C, D, CLASE) sujetos a las siguientes restricciones:


• Dominio(A) = {a1, a2, a3}
• Dominio(B) = {b1, b2, b3, b4}
• Dominio(C) = {c1, c2}
• Dominio(D) = {d1, d2, d3, d4, d5}
• Dominio(CLASE) = {clase1, clase2, clase3}
• La tabla debe incluir, al menos, 15 tuplas.



MUY IMPORTAҭTE: Cada alumno deberá trabajar con sus propios datos.

ҭo se admitirán dos prácticas con los mismos conjuntos de datos.



Construya un árbol de decisión para clasificar los valores de la clase. Como regla de
división, se utilizará la entropía. Como criterio de parada, un nodo del árbol se cerrará
cuando cubra dos tuplas o menos. Incluya, en un fichero Clasificación.doc, los
cómputos de todas las entropías correspondientes a los distintos nodos del árbol.

A continuación, construya otra tabla con 5 tuplas a modo de conjunto de prueba y
complete la matriz de contingencia que muestre los errores de clasificación que se haya
podido cometer.

Incluya los conjuntos de datos y todos los cómputos realizados en Clasificacion.doc


Ejercicios tipo C: Mushroom



A partir de los datos agaricus-lepiota.csv, construiremos un árbol de decisión que
nos ayude a decidir si una seta venenosa (e-edible) o no (p-poisonous) en función de sus
características morfológicas. Para ello, creamos un proyecto en KNIME con los
siguientes nodos:


• Data Manipulation > Row > Partitioning



Para generar el conjunto de entrenamiento y de prueba. Configúrelo para que el
primero corresponda al 80% de los datos (por defecto, aparece un valor muy
bajo del 10%) y que la selección sea “estratificada”. Esto significa que la
distribución de la clase (tanto por ciento de cada uno de los valores de la clase)
se mantendrá en cada partición.

NOTA: El atributo que indica la clase es “Class”.

Sistemas Inteligentes de Gestión: Clasificación 3







• Mining > Decision Tree > Decision Tree Learner


Para generar el árbol de decisión. Configúrelo utilizando con “Gain Ratio” como
Quality Measure y “̱o Pruning” (sin poda) en Pruning Method.

• Mining > Decision Tree > Decision Tree Predictor

Para aplicar el árbol obtenido a un conjunto de datos (éste puede ser el mismo
conjunto de entrenamiento o bien, lo más usual, el conjunto de prueba). En este
ejercicio, utilizaremos ambos.


• Mining > Scoring > Scorer


Para generar la matriz de contingencia en la que comprobaremos los errores de
clasificación. Seleccione las columnas “Class” y “Prediction(DecTree)” (esta
última es la generada por el árbol de decisión utilizado en el nodo anterior, la
predicción).

NOTA: Si hubiésemos usado un nodo Weka para construir el árbol de decisión,
habría que seleccionar “Winner” en vez de “Prediction(DecTree)”.

En el nodo Scorer, si pinchamos con la derecha y seleccionamos View Confusion
Matrix, veremos la matriz de contingencia que muestra los errores de
clasificación. Ésta es la primera salida del nodo Scorer. La otra salida contiene
información adicional sobre otras medidas de ajuste (entre las que se encuentra
Accuracy; esto es, la precisión del modelo de clasificación).



Sistemas Inteligentes de Gestión: Clasificación 4





Tal como hemos configurado nuestro proyecto, usaremos el 80% de los datos como
conjunto de entrenamiento para construir el modelo y el 20% restante como conjunto de
prueba para validarlo.

Con nuestros datos de setas, la clasificación es perfecta y no hay ningún error (ni en el
conjunto de entrenamiento, algo que se podía esperar tras no utilizar técnicas de poda,
ni tampoco en el conjunto de prueba). No obstante, esto no será lo usual. Seleccione
ahora que se realice una poda del árbol y observe que, al podar algunas de las ramas, se
cometen algunos errores.

En Decision Tree Learner, podemos ver el árbol construido utilizando la opción View:
Decision Tree View de su menú contextual.



El icono + indica que se trata de un nodo intermedio que se puede expandir haciendo
click sobre él. En los nodos del árbol, se nos muestra la clase más frecuente y cuántos
de los casos corresponden a ella del total de nodos cubiertos por el nodo (p.ej. 2709
casos de un total de 2806 en el nodo intermedio de la figura).

Además, el "diagrama de sectores" nos indica gráficamente la proporción de casos de la
clase mayoritaria (2709/2806) y la barra naranja nos da la proporción de ejemplos que
caen en cada nodo (con respecto a los ejemplos cubiertos por el nodo padre).

Incluya el árbol obtenido (usando técnicas de poda) y las matrices de contingencia que
se obtienen en el fichero Clasificacion.doc. Comente los resultados obtenidos.



Sistemas Inteligentes de Gestión: Clasificación 5





A continuación, utilizaremos Weka para construir nuestro árbol de decisión, para lo cual
añadiremos los siguientes nodos a nuestro proyecto KNIME:


• Weka > Classification Algorithms > Trees > J48



J48 es la implementación de C4.5 en Weka (también disponible desde Mining >
Classification > Decision Tree > J48(Weka) ). En las opciones de configuración
del nodo, asegúrese de que se poda el árbol (unpruned = false).

• Weka > Predictors > Weka Predictor

Para generar la matriz de errores de clasificación. Seleccione la columna que
representa la clase en el conjunto de datos original y "Winner", que es la
columna que indica la predicción realizada por el modelo creado por Weka.


El árbol generado con el nodo J48 puede mostrarse en formato gráfico (Graph) o en
texto (Weka Output). No obstante, el formato gráfico es propio de Weka y sólo es útil
cuando hay pocos nodos, ya que cuando hay muchos, éstos no se muestran
adecuadamente. Copie el texto correspondiente al árbol generado en el fichero
Clasificación.doc y realice un análisis similar al de antes.



Sistemas Inteligentes de Gestión: Clasificación 6





Ejercicios tipo B

tipo B: Iris



A continuación, crearemos un nuevo proyecto KNIME para crear un modelo de
A continuación, crearemos un nuevo proyecto KNIME para crear un modelo de
A continuación, crearemos un nuevo proyecto KNIME para crear un modelo de
clasificación para el c
  • Links de descarga
http://lwp-l.com/pdf3046

Comentarios de: Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 4 Clasificación y regresión (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad