PDF de programación - Técnicas de análisis de datos

Volver

Filtrado por el tag: perl

<<>>

Técnicas de análisis de datos

Publicado el 20 de Mayo del 2019

2.392 visualizaciones desde el 20 de Mayo del 2019

4,4 MB

266 paginas

Creado hace 11a (08/09/2014)

TÉCNICAS DE ANÁLISIS DE DATOS

APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT

EXCEL Y WEKA

Jesús García Herrero
José Manuel Molina López

2012

PRÓLOGO

Estos apuntes pretenden dar una visión general de las técnicas de análisis de
datos y de las aplicaciones que las implementan, permitiendo entender los
conceptos y algoritmos sobre los que se basan las técnicas así como el
resultado de su aplicación sobre diversas fuentes de ficheros.

Estos apuntes son una recolección de información de muy variadas fuentes,
páginas de intenet, artículos etc.. todas ellas aparecen citadas. De entre todas
ellas cabe resaltar el trabajo fin de carrera de David Sánchez titulado “Data
Mining mediante Sistemas Clasificadores Genéticos. Análisis comparativo con
las técnicas clásicas implementadas en WEKA”, en la titulación de Ingeniería
Informática (Julio 2003) donde se realiza un gran esfuerzo por explicar el
funcionamiento interno de la herramienta WEKA y de dónde se ha extraído la
información acerca de las clases y el código que implementa los algoritmos
para estos apuntes. Así también resulta necesario resaltar la tesis doctoral de
Félix Chamorro, ya que el capítulo 2 (el estado del arte) se pormenorizan todas
las técnicas de análisis de datos y que ha sido utilizado para la elaboración de
estos apuntes.

Esperamos que estos apuntes sean de utilidad para los alumnos que se
acerquen al análisis de datos y en particular para aquellos que tengan interés
en aplicar los conocimientos teóricos en el campo de la práctica.

José Manuel Molina López

Jesús García Herrero

Índice

Índice

CAPÍTULO 1. INTRODUCCIÓN

1.1. KDD Y MINERÍA DE DATOS

1.1.2. EL PROCESO DE KDD

1.1.3. MINERÍA DE DATOS

1.1.4. TECNOLOGÍAS DE APOYO

1.1.5. ÁREAS DE APLICACIÓN

1.1.6. TENDENCIAS DE LA MINERÍA DE DATOS

1.2. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS

1

1

3

5

6

9

13

14

1.2.1. ARQUITECTURA, MODELADO, DISEÑO, Y ASPECTOS DE LA ADMINISTRACIÓN 14

1.2.2. DATA MINING Y FUNCIONES DE BASES DE DATOS

1.2.3. DATA WAREHOUSE

1.2.4. DATA WAREHOUSE Y DATA MINING

1.3. HERRAMIENTAS COMERCIALES DE ANÁLISIS DE DATOS

1.4. ARQUITECTURA SOFTWARE PARA DATA MINING

1.4.2. ARQUITECTURA FUNCIONAL

1.4.3. ARQUITECTURA DEL SISTEMA

1.4.4. EL DATA MINING EN LA ARQUITECTURA DEL SISTEMA

16

17

21

22

33

35

36

38

CAPÍTULO 2. ANÁLISIS ESTADÍSTICO MEDIANTE EXCEL

41

2.1. ANÁLISIS DE UNA VARIABLE. ESTADÍSTICA DESCRIPTIVA E
INFERENCIA

Técnicas de Análisis de Datos

43

i

Índice

2.2. TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS

2.2.1. ANÁLISIS DE RELACIONES ENTRE ATRIBUTOS

2.2.2. RELACIÓN ENTRE VARIABLES NOMINALES-NOMINALES

2.2.3. RELACIONES NUMÉRICAS-NOMINALES
2.2.3.1. Comparación de dos medias
2.2.3.2. Análisis de la varianza

2.2.4. RELACIONES NUMÉRICAS-NUMÉRICAS:
2.2.4.1. Regresión lineal

2.2.5. EVALUACIÓN DEL MODELO DE REGRESIÓN
2.2.5.1. Medidas de Calidad
2.2.5.2. Test de Hipótesis sobre modelo de regresión

2.3. EJEMPLOS DE APLICACIÓN DE TÉCNICAS DE EVALUACIÓN DE
HIPÓTESIS

2.3.1. EJEMPLOS DE VALIDACIÓN DE HIPÓTESIS

2.4. TÉCNICAS CLÁSICAS DE CLASIFICACIÓN Y PREDICCIÓN

2.4.1. CLASIFICACIÓN BAYESIANA:

2.4.2. REGRESIÓN LINEAL

CAPÍTULO 3. TÉCNICAS DE MINERÍA DE DATOS
BASADAS EN APRENDIZAJE AUTOMÁTICO

3.1. TÉCNICAS DE MINERÍA DE DATOS

3.2. CLUSTERING. (“SEGMENTACIÓN”)

3.2.1. CLUSTERING NUMÉRICO (K-MEDIAS)

3.2.2. CLUSTERING CONCEPTUAL (COBWEB)

3.2.3. CLUSTERING PROBABILÍSTICO (EM)

3.3. REGLAS DE ASOCIACIÓN

3.4. LA PREDICCIÓN

3.4.1. REGRESIÓN NO LINEAL.

3.4.2. ÁRBOLES DE PREDICCIÓN

3.4.3. ESTIMADOR DE NÚCLEOS

3.5. LA CLASIFICACIÓN

3.5.1. TABLA DE DECISIÓN

3.5.2. ÁRBOLES DE DECISIÓN

3.5.3. REGLAS DE CLASIFICACIÓN

Técnicas de Análisis de Datos

57

57

57

59
59
61

64
64

65
65
66

67

67

76

80

90

96

96

98

99

100

104

107

110

110

111

115

120

121

123

135

ii

3.5.4. CLASIFICACIÓN BAYESIANA

3.5.5. APRENDIZAJE BASADO EN EJEMPLARES

3.5.6. REDES DE NEURONAS

3.5.7. LÓGICA BORROSA (“FUZZY LOGIC”)

Índice

140

145

153

157

3.5.8. TÉCNICAS GENÉTICAS: ALGORITMOS GENÉTICOS (“GENETIC ALGORITHMS”) 157

CAPÍTULO 4. TÉCNICAS DE ANÁLISIS DE DATOS EN
WEKA

159

INTRODUCCIÓN

PREPARACIÓN DE LOS DATOS

MUESTRA DE DATOS

OBJETIVOS DEL ANÁLISIS

EJECUCIÓN DE WEKA

PREPROCESADO DE LOS DATOS

CARACTERÍSTICAS DE LOS ATRIBUTOS

TRABAJO CON FILTROS. PREPARACIÓN DE FICHEROS DE MUESTRA
Filtros de atributos
Filtros de instancias

VISUALIZACIÓN

REPRESENTACIÓN 2D DE LOS DATOS

FILTRADO “GRÁFICO” DE LOS DATOS

ASOCIACIÓN

AGRUPAMIENTO

AGRUPAMIENTO NUMÉRICO

AGRUPAMIENTO SIMBÓLICO

CLASIFICACIÓN

MODOS DE EVALUACIÓN DEL CLASIFICADOR

SELECCIÓN Y CONFIGURACIÓN DE CLASIFICADORES

PREDICCIÓN NUMÉRICA

APRENDIZAJE DEL MODELO Y APLICACIÓN A NUEVOS DATOS.

SELECCIÓN DE ATRIBUTOS

Técnicas de Análisis de Datos

159

160

160

161

162

164

165

167
168
172

173

173

177

178

183

184

189

191

192

195

203

209

211

iii

Índice

CAPÍTULO 5. IMPLEMENTACIÓN DE LAS TÉCNICAS DE
ANÁLISIS DE DATOS EN WEKA

215

5.1. UTILIZACIÓN DE LAS CLASES DE WEKA EN PROGRAMAS
INDEPENDIENTES

5.2. TABLA DE DECISIÓN EN WEKA

5.3. ID3 EN WEKA

5.4. C4.5 EN WEKA (J48)

5.5. ÁRBOL DE DECISIÓN DE UN SOLO NIVEL EN WEKA

5.6. 1R EN WEKA

5.7. PRISM EN WEKA

5.8. PART EN WEKA

5.9. NAIVE BAYESIANO EN WEKA

5.10. VFI EN WEKA

5.11. KNN EN WEKA (IBK)

5.12. K* EN WEKA

5.13. REDES DE NEURONAS EN WEKA

5.14. REGRESIÓN LINEAL EN WEKA

215

215

216

216

219

220

221

221

222

223

224

226

227

228

5.15. REGRESIÓN LINEAL PONDERADA LOCALMENTE EN WEKA

230

5.16. M5 EN WEKA

5.17. KERNEL DENSITY EN WEKA

5.18. K-MEANS EN WEKA

5.19. COBWEB EN WEKA

5.20. EM EN WEKA

5.21. ASOCIACIÓN A PRIORI EN WEKA

231

232

234

234

235

236

CAPÍTULO 6. EJEMPLOS SOBRE CASOS DE ESTUDIO 239

Técnicas de Análisis de Datos

iv

BIBLIOGRAFÍA

Índice

240

Técnicas de Análisis de Datos

v

Capítulo 1

Introducción

Capítulo 1. Introducción

En este texto se estudia uno de los campos que más se están estudiando en
estos días: La extracción de conocimiento a partir de fuentes masivas de datos.
Para ello se emplean las denominadas técnicas de minería de datos, que son
algoritmos capaces de obtener relaciones entre distintos atributos o conceptos
para ayudar, por ejemplo, a la toma de decisiones.

Además de las técnicas estadísticas se estudian las técnicas de Minería de
Datos [Data Mining] basadas en técnicas de aprendizaje automático que se
implementan en una herramienta de minería de datos de libre distribución:
WEKA. Esta herramienta permite, a partir de ficheros de texto en un formato
determinado, utilizar distintos tipos de técnicas para extraer información.

A continuación se definen los conceptos fundamentales empleados en el texto:
KDD y, sobretodo, minería de datos, así como sus principales características.
Posteriormente se comenta la estructura del proyecto.

1.1. KDD y Minería de Datos

Hoy en día, la cantidad de datos que ha sido almacenada en las bases de
datos excede nuestra habilidad para reducir y analizar los datos sin el uso de
técnicas de análisis automatizadas. Muchas bases de datos comerciales
transaccionales y científicas crecen a una proporción fenomenal.

KDD [Knowledge Discovery in Databases] [PSF91] es el proceso completo de
extracción de información, que se encarga además de la preparación de los
datos y de la interpretación de los resultados obtenidos. KDD se ha definido
como “el proceso no trivial de identificación en los datos de patrones válidos,
nuevos, potencialmente útiles, y finalmente comprensibles” [FAYY96]. Se trata
de interpretar grandes cantidades de datos y encontrar relaciones o patrones.
Para conseguirlo harán falta técnicas de aprendizaje automático [Machine
Learning] [MBK98], estadística [MIT97, DEGR86], bases de datos [CODD70],
técnicas de representación del conocimiento, razonamiento basado en casos
[CBR, Case Based Reasoning], razonamiento aproximado, adquisición de
conocimiento, redes de neuronas y visualización de datos. Tareas comunes en
KDD son la inducción de reglas, los problemas de clasificación y clustering, el
reconocimiento de patrones, el modelado predictivo,
la detección de
dependencias, etc.

KDD es un campo creciente: hay muchas metodologías del descubrimiento del
conocimiento en uso y bajo desarrollo. Algunas de estas técnicas son
genéricas, mientras otros son de dominio específico.

Técnicas de Análisis de Datos

© José M. Molina / Jesús García

Página 1 de 266

Capítulo 1

Introducción

Los datos recogen un conjunto de hechos (una base de datos) y los patrones
son expresiones que describen un subconjunto de los datos (un modelo
aplicable a ese subconjunto). KDD involucra un proceso iterativo e interactivo
de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos
han de ser válidos, novedosos para el sistema (para el usuario siempre que
sea posible) y potencialmente útiles.

Se han de definir medidas cuantitativas para los patrones obtenidos (precisión,
utilidad, beneficio obtenido...). Se debe establecer alguna medida de interés
[interestingness] que considere la validez, utilidad y simplicidad de los patrones
obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo
final de todo esto es incorporar el conocimiento obtenido en algún sistema real,