Publicado el 20 de Mayo del 2019
2.082 visualizaciones desde el 20 de Mayo del 2019
4,4 MB
266 paginas
Creado hace 10a (08/09/2014)
TÉCNICAS DE ANÁLISIS DE DATOS
APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT
EXCEL Y WEKA
Jesús García Herrero
José Manuel Molina López
2012
PRÓLOGO
Estos apuntes pretenden dar una visión general de las técnicas de análisis de
datos y de las aplicaciones que las implementan, permitiendo entender los
conceptos y algoritmos sobre los que se basan las técnicas así como el
resultado de su aplicación sobre diversas fuentes de ficheros.
Estos apuntes son una recolección de información de muy variadas fuentes,
páginas de intenet, artículos etc.. todas ellas aparecen citadas. De entre todas
ellas cabe resaltar el trabajo fin de carrera de David Sánchez titulado “Data
Mining mediante Sistemas Clasificadores Genéticos. Análisis comparativo con
las técnicas clásicas implementadas en WEKA”, en la titulación de Ingeniería
Informática (Julio 2003) donde se realiza un gran esfuerzo por explicar el
funcionamiento interno de la herramienta WEKA y de dónde se ha extraído la
información acerca de las clases y el código que implementa los algoritmos
para estos apuntes. Así también resulta necesario resaltar la tesis doctoral de
Félix Chamorro, ya que el capítulo 2 (el estado del arte) se pormenorizan todas
las técnicas de análisis de datos y que ha sido utilizado para la elaboración de
estos apuntes.
Esperamos que estos apuntes sean de utilidad para los alumnos que se
acerquen al análisis de datos y en particular para aquellos que tengan interés
en aplicar los conocimientos teóricos en el campo de la práctica.
José Manuel Molina López
Jesús García Herrero
Índice
Índice
CAPÍTULO 1. INTRODUCCIÓN
1.1. KDD Y MINERÍA DE DATOS
1.1.2. EL PROCESO DE KDD
1.1.3. MINERÍA DE DATOS
1.1.4. TECNOLOGÍAS DE APOYO
1.1.5. ÁREAS DE APLICACIÓN
1.1.6. TENDENCIAS DE LA MINERÍA DE DATOS
1.2. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS
1
1
3
5
6
9
13
14
1.2.1. ARQUITECTURA, MODELADO, DISEÑO, Y ASPECTOS DE LA ADMINISTRACIÓN 14
1.2.2. DATA MINING Y FUNCIONES DE BASES DE DATOS
1.2.3. DATA WAREHOUSE
1.2.4. DATA WAREHOUSE Y DATA MINING
1.3. HERRAMIENTAS COMERCIALES DE ANÁLISIS DE DATOS
1.4. ARQUITECTURA SOFTWARE PARA DATA MINING
1.4.2. ARQUITECTURA FUNCIONAL
1.4.3. ARQUITECTURA DEL SISTEMA
1.4.4. EL DATA MINING EN LA ARQUITECTURA DEL SISTEMA
16
17
21
22
33
35
36
38
CAPÍTULO 2. ANÁLISIS ESTADÍSTICO MEDIANTE EXCEL
41
2.1. ANÁLISIS DE UNA VARIABLE. ESTADÍSTICA DESCRIPTIVA E
INFERENCIA
Técnicas de Análisis de Datos
43
i
Índice
2.2. TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS
2.2.1. ANÁLISIS DE RELACIONES ENTRE ATRIBUTOS
2.2.2. RELACIÓN ENTRE VARIABLES NOMINALES-NOMINALES
2.2.3. RELACIONES NUMÉRICAS-NOMINALES
2.2.3.1. Comparación de dos medias
2.2.3.2. Análisis de la varianza
2.2.4. RELACIONES NUMÉRICAS-NUMÉRICAS:
2.2.4.1. Regresión lineal
2.2.5. EVALUACIÓN DEL MODELO DE REGRESIÓN
2.2.5.1. Medidas de Calidad
2.2.5.2. Test de Hipótesis sobre modelo de regresión
2.3. EJEMPLOS DE APLICACIÓN DE TÉCNICAS DE EVALUACIÓN DE
HIPÓTESIS
2.3.1. EJEMPLOS DE VALIDACIÓN DE HIPÓTESIS
2.4. TÉCNICAS CLÁSICAS DE CLASIFICACIÓN Y PREDICCIÓN
2.4.1. CLASIFICACIÓN BAYESIANA:
2.4.2. REGRESIÓN LINEAL
CAPÍTULO 3. TÉCNICAS DE MINERÍA DE DATOS
BASADAS EN APRENDIZAJE AUTOMÁTICO
3.1. TÉCNICAS DE MINERÍA DE DATOS
3.2. CLUSTERING. (“SEGMENTACIÓN”)
3.2.1. CLUSTERING NUMÉRICO (K-MEDIAS)
3.2.2. CLUSTERING CONCEPTUAL (COBWEB)
3.2.3. CLUSTERING PROBABILÍSTICO (EM)
3.3. REGLAS DE ASOCIACIÓN
3.4. LA PREDICCIÓN
3.4.1. REGRESIÓN NO LINEAL.
3.4.2. ÁRBOLES DE PREDICCIÓN
3.4.3. ESTIMADOR DE NÚCLEOS
3.5. LA CLASIFICACIÓN
3.5.1. TABLA DE DECISIÓN
3.5.2. ÁRBOLES DE DECISIÓN
3.5.3. REGLAS DE CLASIFICACIÓN
Técnicas de Análisis de Datos
57
57
57
59
59
61
64
64
65
65
66
67
67
76
80
90
96
96
98
99
100
104
107
110
110
111
115
120
121
123
135
ii
3.5.4. CLASIFICACIÓN BAYESIANA
3.5.5. APRENDIZAJE BASADO EN EJEMPLARES
3.5.6. REDES DE NEURONAS
3.5.7. LÓGICA BORROSA (“FUZZY LOGIC”)
Índice
140
145
153
157
3.5.8. TÉCNICAS GENÉTICAS: ALGORITMOS GENÉTICOS (“GENETIC ALGORITHMS”) 157
CAPÍTULO 4. TÉCNICAS DE ANÁLISIS DE DATOS EN
WEKA
159
INTRODUCCIÓN
PREPARACIÓN DE LOS DATOS
MUESTRA DE DATOS
OBJETIVOS DEL ANÁLISIS
EJECUCIÓN DE WEKA
PREPROCESADO DE LOS DATOS
CARACTERÍSTICAS DE LOS ATRIBUTOS
TRABAJO CON FILTROS. PREPARACIÓN DE FICHEROS DE MUESTRA
Filtros de atributos
Filtros de instancias
VISUALIZACIÓN
REPRESENTACIÓN 2D DE LOS DATOS
FILTRADO “GRÁFICO” DE LOS DATOS
ASOCIACIÓN
AGRUPAMIENTO
AGRUPAMIENTO NUMÉRICO
AGRUPAMIENTO SIMBÓLICO
CLASIFICACIÓN
MODOS DE EVALUACIÓN DEL CLASIFICADOR
SELECCIÓN Y CONFIGURACIÓN DE CLASIFICADORES
PREDICCIÓN NUMÉRICA
APRENDIZAJE DEL MODELO Y APLICACIÓN A NUEVOS DATOS.
SELECCIÓN DE ATRIBUTOS
Técnicas de Análisis de Datos
159
160
160
161
162
164
165
167
168
172
173
173
177
178
183
184
189
191
192
195
203
209
211
iii
Índice
CAPÍTULO 5. IMPLEMENTACIÓN DE LAS TÉCNICAS DE
ANÁLISIS DE DATOS EN WEKA
215
5.1. UTILIZACIÓN DE LAS CLASES DE WEKA EN PROGRAMAS
INDEPENDIENTES
5.2. TABLA DE DECISIÓN EN WEKA
5.3. ID3 EN WEKA
5.4. C4.5 EN WEKA (J48)
5.5. ÁRBOL DE DECISIÓN DE UN SOLO NIVEL EN WEKA
5.6. 1R EN WEKA
5.7. PRISM EN WEKA
5.8. PART EN WEKA
5.9. NAIVE BAYESIANO EN WEKA
5.10. VFI EN WEKA
5.11. KNN EN WEKA (IBK)
5.12. K* EN WEKA
5.13. REDES DE NEURONAS EN WEKA
5.14. REGRESIÓN LINEAL EN WEKA
215
215
216
216
219
220
221
221
222
223
224
226
227
228
5.15. REGRESIÓN LINEAL PONDERADA LOCALMENTE EN WEKA
230
5.16. M5 EN WEKA
5.17. KERNEL DENSITY EN WEKA
5.18. K-MEANS EN WEKA
5.19. COBWEB EN WEKA
5.20. EM EN WEKA
5.21. ASOCIACIÓN A PRIORI EN WEKA
231
232
234
234
235
236
CAPÍTULO 6. EJEMPLOS SOBRE CASOS DE ESTUDIO 239
Técnicas de Análisis de Datos
iv
BIBLIOGRAFÍA
Índice
240
Técnicas de Análisis de Datos
v
Capítulo 1
Introducción
Capítulo 1. Introducción
En este texto se estudia uno de los campos que más se están estudiando en
estos días: La extracción de conocimiento a partir de fuentes masivas de datos.
Para ello se emplean las denominadas técnicas de minería de datos, que son
algoritmos capaces de obtener relaciones entre distintos atributos o conceptos
para ayudar, por ejemplo, a la toma de decisiones.
Además de las técnicas estadísticas se estudian las técnicas de Minería de
Datos [Data Mining] basadas en técnicas de aprendizaje automático que se
implementan en una herramienta de minería de datos de libre distribución:
WEKA. Esta herramienta permite, a partir de ficheros de texto en un formato
determinado, utilizar distintos tipos de técnicas para extraer información.
A continuación se definen los conceptos fundamentales empleados en el texto:
KDD y, sobretodo, minería de datos, así como sus principales características.
Posteriormente se comenta la estructura del proyecto.
1.1. KDD y Minería de Datos
Hoy en día, la cantidad de datos que ha sido almacenada en las bases de
datos excede nuestra habilidad para reducir y analizar los datos sin el uso de
técnicas de análisis automatizadas. Muchas bases de datos comerciales
transaccionales y científicas crecen a una proporción fenomenal.
KDD [Knowledge Discovery in Databases] [PSF91] es el proceso completo de
extracción de información, que se encarga además de la preparación de los
datos y de la interpretación de los resultados obtenidos. KDD se ha definido
como “el proceso no trivial de identificación en los datos de patrones válidos,
nuevos, potencialmente útiles, y finalmente comprensibles” [FAYY96]. Se trata
de interpretar grandes cantidades de datos y encontrar relaciones o patrones.
Para conseguirlo harán falta técnicas de aprendizaje automático [Machine
Learning] [MBK98], estadística [MIT97, DEGR86], bases de datos [CODD70],
técnicas de representación del conocimiento, razonamiento basado en casos
[CBR, Case Based Reasoning], razonamiento aproximado, adquisición de
conocimiento, redes de neuronas y visualización de datos. Tareas comunes en
KDD son la inducción de reglas, los problemas de clasificación y clustering, el
reconocimiento de patrones, el modelado predictivo,
la detección de
dependencias, etc.
KDD es un campo creciente: hay muchas metodologías del descubrimiento del
conocimiento en uso y bajo desarrollo. Algunas de estas técnicas son
genéricas, mientras otros son de dominio específico.
Técnicas de Análisis de Datos
© José M. Molina / Jesús García
Página 1 de 266
Capítulo 1
Introducción
Los datos recogen un conjunto de hechos (una base de datos) y los patrones
son expresiones que describen un subconjunto de los datos (un modelo
aplicable a ese subconjunto). KDD involucra un proceso iterativo e interactivo
de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos
han de ser válidos, novedosos para el sistema (para el usuario siempre que
sea posible) y potencialmente útiles.
Se han de definir medidas cuantitativas para los patrones obtenidos (precisión,
utilidad, beneficio obtenido...). Se debe establecer alguna medida de interés
[interestingness] que considere la validez, utilidad y simplicidad de los patrones
obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo
final de todo esto es incorporar el conocimiento obtenido en algún sistema real,
Comentarios de: Técnicas de análisis de datos (0)
No hay comentarios