PDF de programación - Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

Imágen de pdf Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

Arquitectura lambda aplicada a clustering de documentos en contextos Big Datagráfica de visualizaciones

Publicado el 27 de Junio del 2017
1.587 visualizaciones desde el 27 de Junio del 2017
1,7 MB
75 paginas
Creado hace 8a (30/09/2015)
Universidad Nacional de Educación a Distancia

Tesis de Máster



Arquitectura lambda aplicada a

clustering de documentos en

contextos Big Data



Máster universitario en I.A. avanzada:
Fundamentos, métodos y aplicaciones



Autor:

Alberto Vallejo Martínez

Directores:

Raquel Martínez Unanue
Álvaro Rodrigo Yuste



Octubre de 2015

Contenido

Contenido ........................................................................................................................................... 2

Lista de Figuras.................................................................................................................................. 4

Lista de Tablas ................................................................................................................................... 6

Resumen ............................................................................................................................................. 7

Palabras clave ..................................................................................................................................... 7

Abstract .............................................................................................................................................. 8

Keywords ........................................................................................................................................... 8

1

Introducción ........................................................................................................................... 10

1.1 Motivación ..................................................................................................................... 10

1.2

1.3

1.4

Descripción del problema ........................................................................................... 10

Objetivos ........................................................................................................................ 12

Estructura de la memoria............................................................................................. 12

2

Preliminares ............................................................................................................................ 13

2.1

Big Data .......................................................................................................................... 13

2.1.1 Generalidades ......................................................................................................... 13

2.1.2 Desafíos de Big Data ............................................................................................. 13

2.1.3 Map-Reduce ............................................................................................................ 15

2.1.4

Apache Spark .......................................................................................................... 16

2.2

Arquitectura lambda ..................................................................................................... 18

2.2.1

Ventajas y aplicaciones de la arquitectura lambda ............................................. 23

2.3

Representación de los datos ........................................................................................ 24

2.3.1 Modelo de espacio vectorial ................................................................................. 24

2.3.2

La maldición de la dimensionalidad .................................................................... 25

2.3.2.1

El valor de referencia y sus problemas ....................................................... 25

2.4

Reducción de dimensionalidad ................................................................................... 25

2.4.1

Latent Dirichlet Allocation (LDA) ...................................................................... 27

2.4.2

Probabilistic Latent Semantic Analysis (PLSA) ................................................. 29

2.4.3

PLSA y LDA en Big Data..................................................................................... 30

2.5

Clustering en Big Data ................................................................................................. 31

2.5.1

k-means en Big Data.............................................................................................. 32



2

2.6

Flujo de datos (Streaming) ........................................................................................... 34

2.6.1

Clustering incremental ........................................................................................... 35

2.7 Métodos de evaluación................................................................................................. 37

2.7.1

Evaluación de la escalabilidad .............................................................................. 37

2.7.2

Evaluación de la calidad ........................................................................................ 38

3 Diseño del método propuesto ............................................................................................. 40

3.1

3.2

3.3

3.4

Descripción .................................................................................................................... 40

Algoritmos utilizados ................................................................................................... 42

Conjunto de datos maestro ......................................................................................... 43

Arquitectura Lambda ................................................................................................... 44

3.4.1

Batch Layer ............................................................................................................. 44

3.4.2

Speed Layer ............................................................................................................. 45

3.4.3

Serving Layer .......................................................................................................... 47

4

Experimentos y resultados ................................................................................................... 49

4.1

4.2

4.3

Juegos de datos .............................................................................................................. 49

Experimentos ................................................................................................................ 49

Estudio de la calidad ..................................................................................................... 50

4.3.1

Análisis de Batch Layer ......................................................................................... 50

4.3.2

Análisis de Speed Layer ......................................................................................... 52

4.3.3

Conclusiones ........................................................................................................... 53

4.4

Estudio de la escalabilidad ........................................................................................... 53

4.4.1

Análisis de Batch Layer ......................................................................................... 53

4.4.1.1

Interpretación ................................................................................................. 58

4.4.2

Análisis de Speed Layer ......................................................................................... 59

4.4.2.1

Resultados globales ........................................................................................ 59

4.4.2.2

Resultados TF-IDF y LDA .......................................................................... 61

4.4.2.3

Interpretación ................................................................................................. 62

4.5

Análisis global ................................................................................................................ 62

5

Conclusiones y trabajos futuros ........................................................................................... 64

Agradecimientos .............................................................................................................................. 65

Bibliografía ....................................................................................................................................... 66

Anexo I ............................................................................................................................................. 74

Hashing de rasgos .................................................................................................................. 74



3

Lista de Figuras

Figura 2.1. Fases del procesamiento en Big Data. (Fuente Labrinidis & Jagadish, 2012) .... 14
Figura 2.2. Signatura de funciones Map y Reduce ..................................................................... 15
Figura 2.3. Arquitectura de Apache Spark................................................................................... 17
Figura 2.4. Comparativa de rendimiento Hadoop vs Spark, ejecutando Regresión Logística.
(Fuente: Zaharia et al., 2012) ......................................................................................................... 18
Figura 2.5. Diagrama con las capas de la arquitectura lambda. ................................................ 20
Figura 2.6. Ejemplo. Se inicia el procesamiento de la capa batch sobre el dataset completo
........................................................................................................................................................... 22
Figura 2.7. Ejemplo. Llega un documento nuevo ...................................................................... 22
Figura 2.8. Ejemplo. La capa batch termina su procesamiento ......................................
  • Links de descarga
http://lwp-l.com/pdf4734

Comentarios de: Arquitectura lambda aplicada a clustering de documentos en contextos Big Data (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad