Sistemas Inteligentes de Gestión
Sistemas Inteligentes de Gestión
Guión de Prácticas de Minería de Datos
Guión de Prácticas de Minería de Datos
Práctica 2
Reglas de Asociación
© Juan Carlos Cubero
Juan Carlos Cubero & Fernando Berzal
Titanic.arff
Datos de empleados.sav
agaricus-lepiota.csv
FICHEROS DE DATOS
Asociación_Titanic.txt
Asociacion_Titanic.knime.zip
Asociacion_Titanic.knime.zip
EҭTREGA DE LA PRÁCTICA
Ficheros de reglas y ficheros de los proyectos KҭIME
de reglas y ficheros de los proyectos KҭIME
Asociación_Titanic
Asociación_DatosEmpleados
Asociación_Mushroom
DatosEmpleados_discretizados.csv
discretizados.csv
Asociación_DatosEmpleados.txt
Asociación_DatosEmpleados.txt
Asociacion_DatosEmpleados.knime.zip
.knime.zip
Asociacion_Mushroom.txt
Asociación_Mushroom.knime.zip
.knime.zip
Sistemas Inteligentes de Gestión:
Sistemas Inteligentes de Gestión: Reglas de Asociación
Reglas de Asociación 1
Para la realización de esta práctica,
ra la realización de esta práctica, se recomienda la creación de una carpeta
se recomienda la creación de una carpeta
en la que se vayan incluyendo todos los ficheros que se han de entregar al
la que se vayan incluyendo todos los ficheros que se han de entregar al
la que se vayan incluyendo todos los ficheros que se han de entregar al
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
conjuntos de datos utilizados en este guión).
conjuntos de datos utilizados en este guión).
Ejercicios tipo C
tipo C
(Attribute-Relation File Format) es el formato "oficial" de Weka
Titanic
El fichero Titanic.arff contiene datos sobre las características de los 2201 pasajeros
contiene datos sobre las características de los 2201 pasajeros
contiene datos sobre las características de los 2201 pasajeros
del Titanic. Estos datos son reales y provienen del
Estos datos son reales y provienen del "Report on the Loss of the ‘Titanic’
"Report on the Loss of the ‘Titanic’
(S.S.)" (British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
(British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
(British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
Publishing, 1990).
El formato arff (Attribute
) es el formato "oficial" de Weka y
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
con una línea por tupla y los valores de una misma tupla separados por comas
con una línea por tupla y los valores de una misma tupla separados por comas
con una línea por tupla y los valores de una misma tupla separados por comas (en la
misma línea del fichero de texto). Adicionalmente, los ficheros
misma línea del fichero de texto). Adicionalmente, los ficheros arff
arff incluyen una
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
los distintos atributos atributos de la relación, tal como se muestra a continua
los distintos atributos atributos de la relación, tal como se muestra a continua
los distintos atributos atributos de la relación, tal como se muestra a continuación:
% Comentarios
@RELATION Persona
@ATTRIBUTE Ingresos NUMERIC
@ATTRIBUTE Ingresos NUMERIC
@ATTRIBUTE Nombre string
@ATTRIBUTE Nombre string
@ATTRIBUTE FechaNacimiento date
@ATTRIBUTE FechaNacimiento date
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}
@DATA
18000.34 , Juan , 1979
22300.05 , Inma, 1967
........
Más información sobre el formato
Más información sobre el formato arff en http://weka.wiki.sourceforge.net/ARFF
En el caso del fichero de datos
fichero de datos correspondiente a los datos de los pasajeros del Titanic,
correspondiente a los datos de los pasajeros del Titanic,
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
fichero Titanic.arff:
http://weka.wiki.sourceforge.net/ARFF.
22300.05 , Inma, 1967-02-25 , Directivo
n , 1979-03-31 , Administrativo
• Clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera)
(0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera)
(1 = adulto, 0 = niño)
• Edad (1 = adulto, 0 = ni
• Sexo (1 = hombre, 0 = mujer)
Sexo (1 = hombre, 0 = mujer)
• Sobrevivió (1 = sí, 0 = no)
Sobrevivió (1 = sí, 0 = no)
Sistemas Inteligentes de Gestión:
Sistemas Inteligentes de Gestión: Reglas de Asociación
Reglas de Asociación 2
Crearemos un proyecto nuevo en KNIME llamado AsociacionTitanic, al que le
añadiremos un nodo IO > Read >ARFF Reader (para leer datos desde un fichero en
formato ARFF). Este nodo lo conectaremos con otro nodo, de tipo Weka > Association
Rules > APriori, lo que dará lugar a un fllujo como el siguiente:
RECORDATORIO: Para poder utilizar los nodos de Weka en KNIME, hay que
seleccionar File > Update ḴIME y elegir las extensiones para Weka.
A continuación, configuraremos el lector ARFF para que acceda a los datos de nuestro
fichero de datos () y estableceremos las siguientes opciones para Apriori:
• Un umbral de soporte
mínimo del 5%
(0.05 representa un 5% en
lowerBoundMinSuppport)
• Confianza del 70%
(0.7 en minMetric).
Observaciones
• More muestra información
adicional sobre el método
empleado (Capabilities,
restricciones y tipos sobre
los que opera).
• En metricType podemos
escoger otras medidas de
evaluación de las reglas
(p.ej. lift).
• OutputItemsetItems
indica si deseamos obtener
los patrones frecuentes.
Sistemas Inteligentes de Gestión: Reglas de Asociación 3
.
Ejecute el flujo, seleccionando el nodo lector y pinchando en
Desde el nodo Apriori, pinche con el botón izquierdo del ratón y, en su menú
contextual, seleccione View: Weka ̱ode View.
Cree un fichero de texto, Asociación_Titanic.txt, y comente el significado de, al
menos, 4 reglas que le parezcan de interés.
Repita el proceso anterior cambiando la configuración del nodo Apriori:
• Soporte 1%, confianza 70%.
• Soporte 1%, confianza 85%
De todas las reglas obtenidas para cada una de las configuraciones anteriores, comente
lo que le haya parecido más interesante (en el fichero Asociación_Titanic.txt).
Añada un nodo del tipo Statistics > Statistics y compruebe que, para el atributo Edad,
hay 2092 tuplas con valor 1 (adulto) y sólo 109 con valor 0 (no adulto). En clase de
teoría hemos comentado los problemas que surgen con la presencia de ítems demasiado
frecuentes. Para eliminar su influencia en nuestro análisis, prueba las siguientes
estrategias:
a) Añada un nodo de filtro para eliminar la columna Edad entera
(Data Manipulation > Column > Filter > Column Filter) y vuelva a generar las
reglas (con umbral de soporte 1% y confianza mínima 70%). Compare los
resultados con los obtenidos anteriormente (con los mismos umbrales de soporte
y confianza) y comente, al menos, 4 reglas.
b) Si hace lo indicado en la opción anterior, obviamente, no se generará ninguna
regla relativa a edad=0. Lo ideal, no obstante, sería generar las reglas utilizando
todos los datos disponibles y, posteriormente, filtrar las reglas obtenidas.
Desgraciadamente, ni KNIME ni Weka proporcionan herramientas para hacerlo.
Vuelva a la generar las reglas con todos los datos (soporte 1% y confianza 70%)
y comente al menos alguna regla interesante que involucre a edad=0.
c) ¿Sería adecuado insertar entre el nodo de lectura de datos y el de generación de
reglas un nuevo nodo del tipo Data Manipulation > Row > Filter > Row Filter
> Exclude Rows by Attribute Value, de tal manera que se excluyan las tuplas
que contengan edad=1? Razone su respuesta.
Sistemas Inteligentes de Gestión: Reglas de Asociación 4
Mushroom (Agaericus Lepiota)
Utilice ahora el fichero agaricus-lepiota.csv, que contiene datos sobre la
morfología de un conjunto de setas [mushrooms] y un atributo [Class] que nos indica si
la seta es comestible o no.
Cree un nuevo proyecto KNIME y diseño el flujo necesario para generar reglas de
asociación probando, al menos, dos combinaciones distintas de soporte y medidas de
evaluación (p.ej. confianza o lift).
Compruebe el número enorme de reglas que se obtienen y, en el fichero
Asociacion_Mushroom.txt , indique qué parámetros se ha utilizado en sus distintas
configuraciones y el número de reglas obtenidas en cada caso.
Sistemas Inteligentes de Gestión: Reglas de Asociación 5
Ejercicios tipo B
aplicable en problemas de clasificación (es un algoritmo de discretización
supervisada).Weka sí tiene discretizadores, pero no disponibles desde KNIME.
Datos de Empleados
A continuación, queremos extrae
Comentarios de: Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 2 Reglas de Asociación (0)
No hay comentarios