PDF de programación - Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 2 Reglas de Asociación

Imágen de pdf Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 2 Reglas de Asociación

Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 2 Reglas de Asociacióngráfica de visualizaciones

Publicado el 16 de Abril del 2017
1.059 visualizaciones desde el 16 de Abril del 2017
570,0 KB
7 paginas
Creado hace 13a (02/03/2011)
Sistemas Inteligentes de Gestión
Sistemas Inteligentes de Gestión



Guión de Prácticas de Minería de Datos
Guión de Prácticas de Minería de Datos


Práctica 2

Reglas de Asociación



© Juan Carlos Cubero

Juan Carlos Cubero & Fernando Berzal

Titanic.arff
Datos de empleados.sav
agaricus-lepiota.csv



FICHEROS DE DATOS



Asociación_Titanic.txt
Asociacion_Titanic.knime.zip
Asociacion_Titanic.knime.zip

EҭTREGA DE LA PRÁCTICA
Ficheros de reglas y ficheros de los proyectos KҭIME
de reglas y ficheros de los proyectos KҭIME

Asociación_Titanic


Asociación_DatosEmpleados



Asociación_Mushroom



DatosEmpleados_discretizados.csv
discretizados.csv
Asociación_DatosEmpleados.txt
Asociación_DatosEmpleados.txt
Asociacion_DatosEmpleados.knime.zip


.knime.zip

Asociacion_Mushroom.txt
Asociación_Mushroom.knime.zip

.knime.zip



Sistemas Inteligentes de Gestión:
Sistemas Inteligentes de Gestión: Reglas de Asociación

Reglas de Asociación 1







Para la realización de esta práctica,
ra la realización de esta práctica, se recomienda la creación de una carpeta
se recomienda la creación de una carpeta
en la que se vayan incluyendo todos los ficheros que se han de entregar al
la que se vayan incluyendo todos los ficheros que se han de entregar al
la que se vayan incluyendo todos los ficheros que se han de entregar al
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
finalizarla (organizados, a su vez, en tres subcarpetas correspondientes a los 3
conjuntos de datos utilizados en este guión).
conjuntos de datos utilizados en este guión).

Ejercicios tipo C
tipo C

(Attribute-Relation File Format) es el formato "oficial" de Weka



Titanic

El fichero Titanic.arff contiene datos sobre las características de los 2201 pasajeros
contiene datos sobre las características de los 2201 pasajeros
contiene datos sobre las características de los 2201 pasajeros
del Titanic. Estos datos son reales y provienen del
Estos datos son reales y provienen del "Report on the Loss of the ‘Titanic’
"Report on the Loss of the ‘Titanic’
(S.S.)" (British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
(British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
(British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton
Publishing, 1990).


El formato arff (Attribute
) es el formato "oficial" de Weka y
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos,
con una línea por tupla y los valores de una misma tupla separados por comas
con una línea por tupla y los valores de una misma tupla separados por comas
con una línea por tupla y los valores de una misma tupla separados por comas (en la
misma línea del fichero de texto). Adicionalmente, los ficheros
misma línea del fichero de texto). Adicionalmente, los ficheros arff
arff incluyen una
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
cabecera con información adicional acerca de los nombres y tipos de datos asociados a
los distintos atributos atributos de la relación, tal como se muestra a continua
los distintos atributos atributos de la relación, tal como se muestra a continua
los distintos atributos atributos de la relación, tal como se muestra a continuación:

% Comentarios

@RELATION Persona

@ATTRIBUTE Ingresos NUMERIC
@ATTRIBUTE Ingresos NUMERIC
@ATTRIBUTE Nombre string
@ATTRIBUTE Nombre string
@ATTRIBUTE FechaNacimiento date
@ATTRIBUTE FechaNacimiento date
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}
@ATTRIBUTE CategoriaLaboral {Administrativo, Seguridad, Directivo}

@DATA

18000.34 , Juan , 1979
22300.05 , Inma, 1967
........

Más información sobre el formato
Más información sobre el formato arff en http://weka.wiki.sourceforge.net/ARFF

En el caso del fichero de datos
fichero de datos correspondiente a los datos de los pasajeros del Titanic,
correspondiente a los datos de los pasajeros del Titanic,
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el
fichero Titanic.arff:


http://weka.wiki.sourceforge.net/ARFF.

22300.05 , Inma, 1967-02-25 , Directivo

n , 1979-03-31 , Administrativo

• Clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera)
(0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera)
(1 = adulto, 0 = niño)
• Edad (1 = adulto, 0 = ni
• Sexo (1 = hombre, 0 = mujer)
Sexo (1 = hombre, 0 = mujer)
• Sobrevivió (1 = sí, 0 = no)
Sobrevivió (1 = sí, 0 = no)

Sistemas Inteligentes de Gestión:
Sistemas Inteligentes de Gestión: Reglas de Asociación

Reglas de Asociación 2





Crearemos un proyecto nuevo en KNIME llamado AsociacionTitanic, al que le
añadiremos un nodo IO > Read >ARFF Reader (para leer datos desde un fichero en
formato ARFF). Este nodo lo conectaremos con otro nodo, de tipo Weka > Association
Rules > APriori, lo que dará lugar a un fllujo como el siguiente:



RECORDATORIO: Para poder utilizar los nodos de Weka en KNIME, hay que
seleccionar File > Update ḴIME y elegir las extensiones para Weka.



A continuación, configuraremos el lector ARFF para que acceda a los datos de nuestro
fichero de datos () y estableceremos las siguientes opciones para Apriori:


• Un umbral de soporte

mínimo del 5%
(0.05 representa un 5% en
lowerBoundMinSuppport)



• Confianza del 70%
(0.7 en minMetric).



Observaciones

• More muestra información
adicional sobre el método
empleado (Capabilities,
restricciones y tipos sobre
los que opera).


• En metricType podemos
escoger otras medidas de
evaluación de las reglas
(p.ej. lift).


• OutputItemsetItems

indica si deseamos obtener
los patrones frecuentes.



Sistemas Inteligentes de Gestión: Reglas de Asociación 3





.

Ejecute el flujo, seleccionando el nodo lector y pinchando en

Desde el nodo Apriori, pinche con el botón izquierdo del ratón y, en su menú
contextual, seleccione View: Weka ̱ode View.

Cree un fichero de texto, Asociación_Titanic.txt, y comente el significado de, al
menos, 4 reglas que le parezcan de interés.



Repita el proceso anterior cambiando la configuración del nodo Apriori:


• Soporte 1%, confianza 70%.
• Soporte 1%, confianza 85%


De todas las reglas obtenidas para cada una de las configuraciones anteriores, comente
lo que le haya parecido más interesante (en el fichero Asociación_Titanic.txt).



Añada un nodo del tipo Statistics > Statistics y compruebe que, para el atributo Edad,
hay 2092 tuplas con valor 1 (adulto) y sólo 109 con valor 0 (no adulto). En clase de
teoría hemos comentado los problemas que surgen con la presencia de ítems demasiado
frecuentes. Para eliminar su influencia en nuestro análisis, prueba las siguientes
estrategias:


a) Añada un nodo de filtro para eliminar la columna Edad entera

(Data Manipulation > Column > Filter > Column Filter) y vuelva a generar las
reglas (con umbral de soporte 1% y confianza mínima 70%). Compare los
resultados con los obtenidos anteriormente (con los mismos umbrales de soporte
y confianza) y comente, al menos, 4 reglas.


b) Si hace lo indicado en la opción anterior, obviamente, no se generará ninguna

regla relativa a edad=0. Lo ideal, no obstante, sería generar las reglas utilizando
todos los datos disponibles y, posteriormente, filtrar las reglas obtenidas.
Desgraciadamente, ni KNIME ni Weka proporcionan herramientas para hacerlo.
Vuelva a la generar las reglas con todos los datos (soporte 1% y confianza 70%)
y comente al menos alguna regla interesante que involucre a edad=0.


c) ¿Sería adecuado insertar entre el nodo de lectura de datos y el de generación de
reglas un nuevo nodo del tipo Data Manipulation > Row > Filter > Row Filter
> Exclude Rows by Attribute Value, de tal manera que se excluyan las tuplas
que contengan edad=1? Razone su respuesta.



Sistemas Inteligentes de Gestión: Reglas de Asociación 4





Mushroom (Agaericus Lepiota)

Utilice ahora el fichero agaricus-lepiota.csv, que contiene datos sobre la
morfología de un conjunto de setas [mushrooms] y un atributo [Class] que nos indica si
la seta es comestible o no.

Cree un nuevo proyecto KNIME y diseño el flujo necesario para generar reglas de
asociación probando, al menos, dos combinaciones distintas de soporte y medidas de
evaluación (p.ej. confianza o lift).

Compruebe el número enorme de reglas que se obtienen y, en el fichero
Asociacion_Mushroom.txt , indique qué parámetros se ha utilizado en sus distintas
configuraciones y el número de reglas obtenidas en cada caso.



Sistemas Inteligentes de Gestión: Reglas de Asociación 5





Ejercicios tipo B

aplicable en problemas de clasificación (es un algoritmo de discretización
supervisada).Weka sí tiene discretizadores, pero no disponibles desde KNIME.


Datos de Empleados

A continuación, queremos extrae
  • Links de descarga
http://lwp-l.com/pdf3044

Comentarios de: Sistemas Inteligentes de Gestión - Guión de Prácticas de Minería de Datos - Práctica 2 Reglas de Asociación (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad