PDF de programación - Big Data - Analisís de grandes cantidades de datos

Imágen de pdf Big Data - Analisís de grandes cantidades de datos

Big Data - Analisís de grandes cantidades de datosgráfica de visualizaciones

Publicado el 8 de Abril del 2019
1.614 visualizaciones desde el 8 de Abril del 2019
680,7 KB
21 paginas
Creado hace 8a (03/06/2015)
Big Data

___________________________________________________________________________

Analisís de grandes cantidades de datos

Sergio Marchena Quirós

Índice
1.0 Introducción....................................................................................................................................3
1.1 Objetivos del proyecto...............................................................................................................3
1.1.1 Estudio Teórico..................................................................................................................3
2.0 Big Data..........................................................................................................................................3
2.1 las 5 V........................................................................................................................................3
2.2 Tipos de Información.................................................................................................................4
2.3 Arquitectura ..............................................................................................................................4
2.3.1 Recolección de datos:.........................................................................................................5
2.3.2 Almacenamiento.................................................................................................................5
2.3.3 Procesamiento y análisis....................................................................................................5
2.3.4 Visualización......................................................................................................................6
3.0 Hadoop 2.0.6..................................................................................................................................6
3.1 MapReduce................................................................................................................................6
3.1.2 concepto.............................................................................................................................6
3.1.3 Función Map......................................................................................................................6
3.1.4 Función Reduce..................................................................................................................6
3.1.5 Ejemplo..............................................................................................................................7
3.2 HDFS.........................................................................................................................................7
3.2.1 NameNode.........................................................................................................................7
3.2.2 DataNode...........................................................................................................................7
3.2.3 Ejemplo..............................................................................................................................8
4.0 Herramientas de hadoop.................................................................................................................8
4.1 Apache Avro...............................................................................................................................8
4.2 ZooKeeper.................................................................................................................................8
4.3 SOLR.........................................................................................................................................9
4.4 Chukwa....................................................................................................................................10
4.5 FLUME....................................................................................................................................10
4.6 Hive..........................................................................................................................................11
4.7 MAHOUT................................................................................................................................11
4.8 OOZIE......................................................................................................................................11
4.9 PIG...........................................................................................................................................12
4.10 HUE.......................................................................................................................................12
4.11 Sqoop.....................................................................................................................................12
4.12 UIMA.....................................................................................................................................13
5.0 Distribuciones Hadoop.................................................................................................................13
5.1 Amazon EMR..........................................................................................................................13
5.2 Cloudera...................................................................................................................................13
5.3 HORTONWORKS...................................................................................................................14
5.4 IBM InfoSphere BigInsights....................................................................................................14
5.6 MapR Technologies.................................................................................................................14
5.7 Pivotal Software.......................................................................................................................14
6.0 Instalación Hadoop 2.0.6 en Debian.............................................................................................14
6.1 Ejecuciones..............................................................................................................................14
6.2 Ejemplos..................................................................................................................................15
6.2.1 Ejemplo en modo Standalone..........................................................................................15
6.2.2 Ejemplo en modo servidor-local......................................................................................15
6.3.3 Ejemplo en modo distribuido...........................................................................................19
7.0 Hortonworks.................................................................................................................................19
7.1 Ejemplo de Pig (Hortonworks)................................................................................................20
7.2 Hadoop-Openstack...................................................................................................................22

1.0 Introducción
Esta memoria es el resultado del Proyecto de Final de los estudios de Grado Superior de
Administración de Sistema Informáticos En Red, impartidos por el I.E.S Gonzalo Nazareno del
alumno Sergio Marchena Quirós.
Debido a la envergadura del proyecto He tenido que resaltar tres puntos donde centraremos nuestros
estudios:
- Estudio del Big Data
- Estudio MapReduce
- Implementación de Hadoop con MapReduce

1.1 Objetivos del proyecto
Al inicio del proyecto se definieron dos objetivos fundamentales:

1. Estudio teórico Big Data
2. Hadoop.

1.1.1 Estudio Teórico

Puesta al día de Big Data: definición, motivos de su aparición y evolución.


• Definición de los distintos casos de uso en los que Big Data tiene influencia actualmente y

• Estudio y comparación teórica de los distintos paradigmas Big Data así como sus distintas

en los que la tendrá en un futuro.

arquitecturas de software y hardware.

2.0 Big Data
En los últimos años la manera de interactuar los usuarios con la tecnología da pie a grandes
cantidades de datos, generados por el uso de móviles, redes sociales, blogs... Pero no solo la
sociedad, campos como la medicina, ciencia, economía tratan cada vez mas con grandes cantidades
de datos.

Big Data es el sector de las tecnologías de la información y la comunicación (TIC) que se preocupa de como
almacenar y tratar grandes cantidades de información o conjuntos de datos.

2.1 las 5 V
Es común que cuando se hable de Big Data se haga referencia a grandes cantidades de datos. Pero es más
que eso.

• Volumen: Un sistema de Big Data es capaz de manejar grandes cantidades de datos. En
algunos sistemas de almacenamiento tienen problemas de rendimiento al interactuar con
grandes cantidades de datos. Big Data esta pensado para interactuar con grandes cantidades

de datos.

• Velocidad: una de las características mas importantes en el mundo de la informática es la
velocidad de procesado. Big Data se centra en procesar grandes cantidades de datos en un
tiempo reducido y no solo procesar sino también recibir datos de manera veloz.

• Variedad: La nueva corriente de almacenamiento de datos no estructurados han cambiado la
manera de guardar la información. Big Data es capaz de almacenar y procesar sin tener que
estructurar la información.

• Variabilidad: Big data debe ser flexible a la hora de adaptarse a nuevos cambios en los

formatos de datos, tanto el el almacenamiento, obtención o procesado de datos.



Valor: el objetivo final es generar valor de toda la información almacenada a través de distintos
procesos de manera eficiente y con el coste más bajo posible.

2.2 Tipos de Información
Se puede hablar de tres tipos de datos:

• Datos Estructurados: Datos que tienen bien definidos su longitud y su formato, Un

ejemplo son
  • Links de descarga
http://lwp-l.com/pdf15688

Comentarios de: Big Data - Analisís de grandes cantidades de datos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad