PDF de programación - El libro verde del BigData

Imágen de pdf El libro verde del BigData

El libro verde del BigDatagráfica de visualizaciones

Actualizado el 28 de Julio del 2017 (Publicado el 14 de Enero del 2017)
12.273 visualizaciones desde el 14 de Enero del 2017
3,6 MB
43 paginas
Creado hace 9a (21/08/2014)
CONTENIDO (SEPTIEMBRE 2014)

Big Data... ¿y esto qué es? ............................................................. 4
Los problemas actuales ........................................................................................................ 5
Las soluciones y Bases de datos propuestas ........................................................................ 7
Bases de datos Big Data ......................................................................... 7
Sistema de archivos distribuido para garantizar escalabilidad .............. 7

Big Data... ¿y esto qué es?: Conclusión mundo BI ........................... 8

Creando flujos de datos BigData con Kettle .................................. 11
Imaginando una situación que se puede dar ...................................................................... 11

Flujos de datos BigData: Hadoop, Hive y Kettle ............................ 12
Alcance ............................................................................................................................... 13
Trabajando con Kettle ........................................................................................................ 14
Conclusiones ....................................................................................................................... 18

Bases de datos para proyectos BigData ........................................ 20
¿Por qué NoSQL? ................................................................................................................ 20
BD Key-Value. ....................................................................................... 20
BD orientados a documentos ............................................................... 21
BD orientadas a grafos. ........................................................................ 21
BD orientadas a objetos. ...................................................................... 21
Not only noSQL: BD Columnares. ......................................................... 21

Introducción a MongoDB ............................................................. 22
Desde el punto de vista de la analítica de datos ................................................................ 24

Trabajando con Kettle y MongoDb ............................................... 25
Alcance ............................................................................................................................... 25
Trabajando ......................................................................................................................... 25
ETL para insertar datos en MongoDB ................................................................................. 26
ETL para extraer datos de MongoDB .................................................................................. 28

Amazon S3 y Analítica de datos .................................................... 30
Cómo funciona S3 ............................................................................................................... 30
Casos de analítica de datos ................................................................................................ 31



2



Introducción a Amazon Elastic MapReduce .................................. 32
Amazon Elastic Map Reduce .............................................................................................. 32
Cómo Funciona ................................................................................................................... 32
Conclusión .......................................................................................................................... 34

Kettle BigData: Amazon EMR y S3 ................................................ 35
Alcance ............................................................................................................................... 35
Trabajando con Amazon S3 ................................................................................................ 35
Trabajando con Amazon EMR ............................................................................................ 36
Conclusión .......................................................................................................................... 37

9.000.000.000 de elementos en una tabla de hechos .................... 39
Introducción ....................................................................................................................... 39
Architectura ........................................................................................................................ 39
Resultado ............................................................................................................................ 40

Sobre Stratebi .............................................................................. 42

Más información .......................................................................... 43



3



BIG DATA... ¿Y ESTO QUÉ ES?

Hoy en día hay mucha confusión y demasiado populismo con este nuevo término llamado
BIG DATA. A cualquier proyecto de análisis de datos se le está poniendo la etiqueta de
BigData simplemente por que se tratan muchos datos. Entre los consultores BI está siempre
la conversación y la gran mayoría, por no decir todos, creen que se está sustituyendo BI por
BigData.

Surgen muchos Masters, cursos y charlas que en su contenido el 70%-80% es teoría de BI y el
otro 20% es cómo usar tecnologías Big Data... Desde este documento, se busca dar un punto
de vista de qué es BigData y cómo se asocia al Business Intelligence de forma natural.



Desde antaño, las empresas vienen sufriendo transformaciones debido a la tecnología. Los
ejecutivos empezaron a gestionar sus empresas sin guardar datos pues no existía ningún
medio para ello, después surgió la tecnología y comenzaron a usar BD con pocos datos que
se fueron transformando y creciendo hasta un punto de tener que surgir nuevas formas de
"análisis" y "digestión" de esa información. Es ahí que surgieron las tecnologías y procesos
de Business Intelligence que buscaban analizar esos datos que no podían analizar a simple
vista. Pero ahora, con la evolución de la tecnología han surgido nuevos tipos de datos que
no hay como tratar con las tecnologías de siempre y también se generan millones de datos
en muy poco tiempo que no se pueden almacenar pero sí se quiere analizar. Es por ello que
surgen estas tecnologías y procesos BigData que buscan proveer a aplicaciones



4



empresariales de las carencias que las actuales no consiguen proveer. Veamos un poco los
retos y qué propuestas hay actualmente en el ecosistema BigData y BI.

BIG DATA... ¿Y ESTO QUÉ ES?

Actualmente las empresas están viendo cómo el mundo de la tecnología está creciendo y
transformándose. Surgen nuevos tipos de datos y necesidades que actualmente los
sistemas no son suficientemente buenos o adecuados para poder atacar estos
problemas pues las empresas son más exigentes y buscan exprimir al máximo sus recursos
para obtener el mayor beneficio. Sería semejante a escuderías de F1 que buscan superar al
rival buscando la diferencia hasta en los grados de regulación de un alerón, analizando y
optimizando al mayor detalle. A continuación, se expondrán algunos de los muchos
problemas, pero estos que se destacan quizás son unos de los principales motivos que ha
hecho que surja todo ese ecosistema de procesos y herramientas "BigData".

LOS PROBLEMAS ACTUALES
La teoría que nos enseñan en la carrera de
informática es que el modelo tradicional de
BD es el relacional que con ello podemos
hacer todo. Hasta hace relativamente poco,
inclusos los hay que aún solventan cualquier
problema con relacionales. Actualmente hay
una serie de problemáticas con este tipo de
BD que se resumen en estos 3 puntos:

Tipos de datos. Variedad. Han surgido
nuevos tipos de datos que se quieren
almacenar: datos no estructurados. Las BD
Relacionales no pueden almacenar este tipo
de datos.

Escalabilidad. En búsqueda de la rapidez y
rendimiento en consultas o procesamiento
de datos se busca escalar siempre en
horizontal. Es decir, si necesitamos más
rendimiento añadimos una CPU a nuestro conjunto de trabajo para poder aumentar
nuestras prestaciones en conjunto y aumentar el rendimiento reduciendo el tiempo de
búsqueda o almacenamiento. El problema es que actualmente las BDRelacionales no pueden
estar distribuidas en nodos diferentes de forma sencilla transparente al usuario. Por ello la
única forma de conseguir estos dos objetivos en las BD Relacionales es añadiendo CPU y
Memoria, haciendo escalabilidad vertical. Pero esto no es suficiente, buscamos escalabilidad



5



horizontal para tener todos los servidores que queramos trabajando en paralelo y no tener
un límite como es el caso del escalado vertical.



Modelo relacional. El modelo relacional no da soporte para todos los problemas. No
podemos atacar todos los problemas con el mismo enfoque, queremos optimizar al 100%
nuestro sistema y no podemos ajustar nuestros sistemas a estas BD. Por ejemplo, en el
modelo relacional no podemos tener herencia de objetos o no podemos tener columnas
variables según las filas...

Velocidad. Esta es una de las "3 V's" del Big Data (velocidad, variedad, volumetría). La
velocidad de generación de datos hoy en día es muy elevada, simplemente hay que verlo
con las redes sociales actuales, aunque las empresas medias y muchas de las grandes no se
ven afectadas por ello. Donde sí influye la velocidad es en el
  • Links de descarga
http://lwp-l.com/pdf1315

Comentarios de: El libro verde del BigData (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad