PDF de programación - Pentaho Conectores Big Data

Imágen de pdf Pentaho Conectores Big Data

Pentaho Conectores Big Datagráfica de visualizaciones

Actualizado el 28 de Julio del 2017 (Publicado el 14 de Marzo del 2017)
2.608 visualizaciones desde el 14 de Marzo del 2017
495,7 KB
11 paginas
Creado hace 9a (06/08/2014)
Conectores Pentaho

Big Data

Community VS Enterprise

Agosto 2014

Stratebi Business Solutions

www.stratebi.com

[email protected]





Conectores Pentaho Big Data

Índice

1. Resumen ................................................................................................................................ 3

2.

Introducción .......................................................................................................................... 4

3. Objetivo ................................................................................................................................. 4

4. Pentaho Community Edition ................................................................................................. 4

4.1.

Avro ............................................................................................................................... 4

4.2.

Cassandra ...................................................................................................................... 5

4.3.

CouchDB ........................................................................................................................ 6

4.4.

Hadoop .......................................................................................................................... 6

4.5.

HBase ............................................................................................................................. 7

4.6. Map Reduce .................................................................................................................. 7

4.7. MongoDB....................................................................................................................... 8

5. Pentaho Enterprise Edition ................................................................................................... 9

5.1.

Big Data Instant Analytics .............................................................................................. 9

5.2. Model Editor/Scheduler .............................................................................................. 10

5.3.

Splunk .......................................................................................................................... 10



2





Conectores Pentaho Big Data



1. Resumen



En Pentaho hay dos versiones: la versión Community y la versión Enterprise. Llevan

muchos años en Pentaho realizando aportaciones a la comunidad Big Data y todos los

conectores que tienen, a excepción de Splunk, se encuentran en la versión Community. La lista

siguiente muestra un pequeño resumen de conectores y disponibilidad:



Conector

Avro Input
Cassandra

Input

Cassandra

Output
CouchDB

Input

Hadoop Input

Hadoop
Output

HBase Input
HBase Output
MapReduce

Input

MapReduce

Output

MongoDB

Input

MongoDB

Output

Splunk Input

BigData

Instant View

Versión

Versión

Community

Enterprise



X

X



Así mismo la versión Enterprise de Pentaho incluye un wizard que permite a un usuario

poco experimentado en Pentaho conectarse a una fuente de datos Big Data y explorarla en

tres/cuatro pasos. No obstante es una característica secundaria para los profesionales de

Pentaho que requieren realizar ETLs complejas con Pentaho Data Integration.



Este documento explora los conectores y el significado de la tecnología de la que se

nutre.



3





Conectores Pentaho Big Data



2. Introducción



Big Data irrumpió en Pentaho hace un par de años y desde entonces están

desarrollando diferentes proyectos en torno a esta categoría tecnológica. En Pentaho tenemos

dos tipos de versiones: la versión Community y la Enterprise. Ambas se diferencian en que la

versión Community es gratuita mientras que la versión Enterprise es de pago. Debido a este

modelo de negocio que tiene Pentaho, tendremos diferentes conectores Big Data gratuitos y

otros que sin embargo serán de pago.

3. Objetivo



Este documento tiene como objetivo esclarecer de que conectores Big Data dispone

Pentaho para tener una base sólida. La versión que hemos estudiado en este documento de

Pentaho es la 5.1.0.

4. Pentaho Community Edition



Pentaho CE es la versión gratuita de Pentaho. Esta incluye conectores en Pentaho Data

Integration que son gratuitos.



4.1. Avro



Avro, es un sistema de serialización de datos. En los proyectos en Hadoop, suele haber

grandes cuantidades de datos, la serialización se usa para procesarlos y almacenar estos

datos, de forma que el rendimiento en tiempo sea efectivo. Esta serialización puede ser en

texto en plano, JSON, en formato binario.



Con Avro podemos almacenar y leer los datos fácilmente desde diferentes lenguajes

de programación. Está optimizado para minimizar el espacio en disco necesario para

nuestros datos.



En Kettle tenemos Avro Input:

4





Conectores Pentaho Big Data



1 Avro Input



4.2. Cassandra



Cassandra es una base de datos distribuida, con la que podemos obtener un alto

rendimiento en entrada/salida de datos y además es extremadamente escalable. Además

está creada para ser tolerante a fallos, veremos que esto más tarde. Se dice que Cassandra

es una solución de bases de datos post-relacional.



Digamos que Cassandra sirve como un datastore en tiempo real para aplicaciones

online/transaccionales y como base de datos es muy buena para un alto número de

lecturas/escrituras.



Es el producto de la unión de ideas de BigTable y de Dynamo, y se forjó finalmente

como concepto en Facebook.



En Kettle tenemos tanto Cassandra Input (leer) como Cassandra Output (escribir):

2 Cassandra Input



3 Cassandra Output



Por otra parte en Kettle tenemos otro paso llamado SSTable Output, que nos permite

sacar una tabla al completo de Cassandra (se vuelca su estructura de ficheros de

Cassandra).



5





Conectores Pentaho Big Data

4 SSTable Output



4.3. CouchDB



Es un gestor de bases de datos de código abierto, cuyo foco está puesto en la facilidad

de su uso y en ser "una base de datos que asume la web de manera completa".



Se trata de una base de datos NoSQL que emplea JSON para almacenar los datos,

JavaScript como lenguaje de consulta por medio de MapReduce y HTTP como API.Una de

sus características más peculiares es la facilidad con la que permite hacer replicaciones.



CouchDB fue liberada por primera vez en 2005, transformándose en un proyecto

Apache en 2008.



En Kettle tenemos CouchDB Input



5 CouchDB Input

4.4. Hadoop



Apache Hadoop es un framework que permite el procesamiento de grandes

volúmenes de datos a través de clusters, usando un modelo simple de programación. Además

su diseño permite pasar de pocos nodos a miles de nodos de forma ágil. Hadoop es un sistema

distribuido usando una arquitectura Master-Slave, usando para almacenar su Hadoop

Distributed File System (HDFS) y algoritmos de MapReduce para hacer cálculos.



6





Conectores Pentaho Big Data

En kettle tenemos tanto Hadoop File Input como Hadoop File Output:

6 Hadoop File Input



7 Hadoop File Output



4.5. HBase

HBase, se trata de la base de datos de Hadoop. HBase es el componente de Hadoop a

usar, cuando se requiere escrituras/lecturas en tiempo real y acceso aleatorio para grandes

conjuntos de datos. Es una base de datos orientada a la columna, eso quiere decir que no sigue

el esquema relacional. No admite SQL.



En kettle tenemos tanto input como output:

8 HBase Input



9 HBase Output



4.6. Map Reduce



MapReduce es un proceso batch, creado para el proceso distribuido de los datos.

Permite de una forma simple, paralelizar trabajo sobre los grandes volúmenes de datos, como

combinar web logs con los datos relacionales de una base de datos OLTP, de esta forma ver

como los usuarios interactúan con el website.



7





Conectores Pentaho Big Data



El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayéndonos de

la complejidad que hay en los sistemas distribuidos. Básicamente las funciones Map

transforman un conjunto de datos a un número de pares key/value. Cada uno de estos

elementos se encontrará ordenado por su clave, y la función reduce es usada para combinar

los valores (con la misma clave) en un mismo resultado.



Un programa en MapReduce, se suele conocer como Job, la ejecución de un Job

empieza cuando el cliente manda la configuración de Job al JobTracker, esta configuración

especifica las funciones Map, Combine (shuttle) y Reduce, además de la entrada y salida de los

datos.

10 MapReduce Input



4.7. MongoDB

11 MapReduce Output



MongoDB forma parte de la nueva familia de sistemas de base de datos NoSQL. En vez



de guardar los datos en tablas como se hace en las base de datos relacionales, MongoDB

guarda estructuras de datos en documentos tipo JSON con un esquema dinámico (MongoDB

llama ese formato BSON), haciendo que la integración de los datos en ciertas aplicaciones sea

más fácil y rápida.

En Kettle tenemos tanto para leer como para escribir en MongoDB:



12 MongoDB Input

13 MongoDB Output



8







Conectores Pentaho Big Data

Hay varios sitios de referencia dentro de pentaho community de Big Data:

http://www.pentahobigdata.com/ecosystem/com
  • Links de descarga
http://lwp-l.com/pdf2581

Comentarios de: Pentaho Conectores Big Data (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad