PDF de programación - APACHE SPARK - Big Data

Volver

<<>>

APACHE SPARK - Big Data

Publicado el 8 de Abril del 2019

4.400 visualizaciones desde el 8 de Abril del 2019

1,5 MB

54 paginas

Creado hace 8a (01/06/2017)

APACHE SPARK - Big Data

Alejandro Palomino García 2º ASIR

ÍNDICE

1. Introducción..............................................................................................................................4
1.1 Introducción a Apache Spark........................................................................................4
1.2 Evolución de Apache Spark..........................................................................................4
1.3 ¿Por Qué Spark?..........................................................................................................5
1.4 Componentes de Spark................................................................................................6

2. Arquitectura de un clúster de Apache Spark.........................................................................7

3. API de Spark..............................................................................................................................8
3.1 Tipos de transformaciones de un RDD.........................................................................9
3.2 Transformaciones de un RDD....................................................................................10
3.3 Acciones de un RDD...................................................................................................13
3.4 Persistencia de los RDD.............................................................................................14

4. Spark VS Hadoop....................................................................................................................16
4.1 Rendimiento................................................................................................................16
4.2 Usabilidad...................................................................................................................16
4.3 Costes.........................................................................................................................17
4.4 Compatibilidad ...........................................................................................................17
4.5 Procesamiento de datos.............................................................................................17
4.6 Tolerancia a fallos.......................................................................................................17
4.7 Seguridad...................................................................................................................18
4.8 Conclusiones..............................................................................................................18

5. Topología de red.....................................................................................................................19

6. Características y requisitos...................................................................................................20

7. Instalación y configuración de Spark en Debian.................................................................21
7.1 Instalación de Java.....................................................................................................21
7.2 Instalación de Scala....................................................................................................22
7.3 Instalación y configuración de OpenSSH...................................................................22
7.4 Instalación y configuración de Apache Spark.............................................................23
7.5 Creación de los servidores esclavos..........................................................................24
7.6 Configuración de OpenSSH en master.......................................................................26
7.7 Configuración de Apache Spark en el servidor master...............................................27

8. Instalación y configuración de Spark en Windows 10........................................................31
8.1 Instalación de Java SE Development Kit 8.................................................................31
8.2 Instalación de Scala....................................................................................................33
8.3 Instalación de Spark...................................................................................................35
8.4 Instalación de Winutils y establecimiento de variables...............................................36

9. Conexión de MySQL con Spark.............................................................................................42
9.1 Ejecución de algunas consultas al dataframe............................................................44
9.2 Creación de un DataFrame basado en el contenido de un fichero JSON.................45

10. Streaming de Tweet's............................................................................................................46

11. Zeppelin + Spark....................................................................................................................48
11.1 ¿Qué es Zeppelin?....................................................................................................48
11.2 Instalación y configuración de Zeppelin....................................................................48
11.3 Ejemplos...................................................................................................................50

12. Problemas encontrados.......................................................................................................52
12.1: cat: /release: No such file or directory......................................................................52
12.2 HOSTNAME: HOSTNAME: Name or service not known.........................................52
12.3 The root scratch dir: /tmp/hive on HDFS should be writable....................................52
12.4 java.lang.NoClassDef FoundError: org/apache/spark/Logging................................53
12.5 warn “replicated to only 0 peer(s) instead of 1 peers”..............................................53

13. Bibliografía............................................................................................................................54

1. INTRODUCCIÓN

Apache Spark

1.1 Introducción a Apache Spark

Hoy en día se genera gran cantidad de datos en campos como la industria y la ciencia, por
ello, es necesario herramientas como Apache Spark para trabajar con estos datos.

Por otra parte, algunas industrias están utilizando Hadoop para para almacenar, procesar y
analizar grandes volúmenes de datos. Hadoop se basa en el modelo de programación
MapReduce y permite una solución de computación que es escalable tolerante a fallos,
flexible y rentable. La principal preocupación que presenta Hadoop es mantener la velocidad
de espera entre las consultas y el tiempo para ejecutar el programa en el procesamiento de
grandes conjuntos de datos.

Posteriormente salió a la luz Apache Spark introducido por la empresa Apache Software
Foundation para acelerar el proceso de software de cálculo computacional Hadoop.
Aunque es importante mencionar que Apache Spark depende de Hadoop, ya que lo utiliza
para propósitos de almacenamiento.

Apache Spark es una infraestructura informática de clúster de código abierto usado con
frecuencia para cargas de trabajo de Big Data1. Además ofrece un desempeño rápido , ya
que el almacenamiento de datos se gestiona en memoria, lo que mejora el desempeño de
cargas de trabajo interactivas sin costos de E/S (periféricos de entrada/salida). Por otro
lado, Apache Spark es compatible con las bases de datos de gráficos, el análisis de
transmisiones, el procesamiento general por lotes, las consultas ad-hoc y el aprendizaje
automático.

Empresas como Alibaba Taobao y Tencent, ya están utilizando Apache Spark como gestor
de datos. La empresa Tencent posee actualemente 800 millones de usuarios activos,
generando un total de 700 TB de datos procesados al día en un clúster de más de 8000
nodos de computación.

1.2 Evolución de Apache Spark

Spark fue un subproyecto de Hadoop desarrollado en 2009 por Matei Zaharia en la
Universidad de Berkeley AMPLab, que posteriormente fue de código abierto bajo una
licencia BSD.
Posteriormente, en 2013, el proyecto Spark fue donada a la empresa Apache Software
Foundation ,y actualmente se ha convertido en un proyecto de alto nivel.

1 Big Data: Conjunto de herramientas utilizadas para gestionar, manipular y analizar grandes
volúmenes de datos que no pueden ser gestionados por herramientas informáticas
tradicionales como una base de datos.

1.3 ¿Por qué utilizar Spark?

Alguna de las razones por las que se debería usar Apache Spark son:

➢ Velocidad: Apache Spark es capaz de ejecutar hasta 100 veces más rápido

aplicaciones ejecutadas en memoria y 10 veces más rápido cuando se ejecuta en
HDD. Esto se debe principalmente a la reducción de número de operaciones de
lectura / escritura en el disco y al nuevo almacenamiento de datos de procesamiento
intermedio en memoria. Gracias a esta mejora en la velocidad, Spark ofrece una
experimentación más veloz, mayor interactividad y mayor productividad para los
analistas.

En la siguiente ilustraciones se pueden observar como Apache Spark posee una
mayor velocidad de procesamiento en comparación a Hadoop MapReduce:

➢ Potencia: Apache Spark nos permite realizar más operaciones que Hadoop

MapReduce: integración con lenguaje R (Spark R), procesamiento de streaming,
cálculo de grafos (GraphX), machine learning (MLlib), y análisis interactivos. Gracias
a esta mejora en la potencia, se podrá desplegar nuevos proyectos de Big Data con
menos presupuesto y con soluciones más completas.

➢ Fácil uso: Uno dos principales problemas que poseía Hadoop, es que requería de
usuarios con niveles avanzados de MapReduce o programación avanzada en Java.
Este inconveniente desaparece con la llegada d