PDF de programación - Big data. Un nuevo paradigma de análisis de datos

Imágen de pdf Big data. Un nuevo paradigma de análisis de datos

Big data. Un nuevo paradigma de análisis de datosgráfica de visualizaciones

Publicado el 4 de Junio del 2021
871 visualizaciones desde el 4 de Junio del 2021
1.004,8 KB
7 paginas
Creado hace 9a (21/01/2015)
Big data. Un nuevo paradigma
de análisis de datos

Key words: data mining, distributed
computing, massive datasets, statistics.

Abstract:

An unquestionable fact is the vast
amount of information that each second
is now generated on our planet. This in-
formation can be structured, semi-struc-
tured or unstructured. It can also bring
tremendous value to any entity or may
lead to undue consumption of human or
computing resources. Intelligent analysis
(generally in real time) of this informa-
tion is becoming absolutely undeniable
for the survival of many companies and
organizations. As a result demand for
the so-called “data scientist” is growing
exponentially and new concepts like big
data, Mapreduce, Hadoop or cloud com-
puting have emerged.

This article presents an informative in-
troduction to all these terms and analy-
zes the best known structures for the
treatment of big data, as well as legal
and ethical issues.

There was five exabytes of
information created between the
dawn of civilization through
2003, but that much information
is now created every two days,
and the pace is increasing.

Eric Schmidt, former CEO
of Google, 2010

Carlos Maté Jiménez
Profesor Propio de la ETSI (ICAI) de la Universidad
Pontificia Comillas de Madrid, adscrito al Departa-
mento de Organización Industrial y al Instituto de
Investigación Tecnológica (IIT). Doctor en Ciencias
Matemáticas y diplomado en Ciencias Económicas
y Empresariales por la Universidad Complutense.
Actualmente imparte las asignaturas de Análisis de
Datos, Economía y Gestión de Empresas y Estadísti-
ca. Reconocido experto en predicción y en análisis
de datos simbólicos, ha escrito varios libros sobre
Estadística y publicado diversos artículos sobre
aplicaciones de los métodos estadísticos en pres-
tigiosas revistas internacionales y nacionales, tanto
del ámbito industrial, informático y de organización
como del económico.

Palabras clave: cálculo distribuido,
conjuntos de datos masivos, estadísti-
ca, minería de datos.

Resumen:

En nuestros días, es un hecho in-
cuestionable la ingente cantidad de
información que se genera cada se-
gundo en nuestro planeta. Dicha in-
formación puede ser estructurada,
semiestructurada o no estructurada.
También puede aportar enorme valor
a cualquier entidad o puede suponer
un consumo excesivo de recursos hu-
manos, informáticos, etc.

El análisis inteligente (y la mayoría
de las veces en tiempo real) de este
tipo de información está empezando
a ser un requisito innegable para la su-
pervivencia de muchas empresas y or-
ganizaciones. Como consecuencia de
ello han surgido en los últimos años
términos de nuevo cuño como big
data, Mapreduce, Hadoop o compu-
tación en la nube. Así, la demanda de
los llamados “científicos de datos” está
creciendo exponencialmente.

Este artículo plantea una introduc-
ción divulgativa a todos estos térmi-
nos y analiza las estructuras más co-
nocidas para el tratamiento de los big
data, así como las cuestiones legales
y éticas.

10 anales de mecánica y electricidad / noviembre-diciembre 2014

Introducción

Tradicionalmente la estructura de
un conjunto de datos se presenta
como una matriz de n filas y p co-
lumnas, representando cada fila infor-
mación sobre p variables medidas en
cada unidad (individuo, empresa, in-
mueble, calle de una gran ciudad, pro-
cedimiento judicial, etc.). Por ejemplo,
la hoja de cálculo Excel 2013 puede
utilizarse para mostrar 1.048.576 filas
por 16.384 columnas en cada hoja,
siendo los límites máximo de almace-
namiento en memoria de 2 gigabytes
(GB) en un entorno de 32 bits, y los
límites del sistema y su memoria en un
entorno de 64 bits.

Recordamos que un bit es la míni-
ma cantidad de información procesada,
sólo puede ser 1 o 0; mientras que un
byte es un conjunto de 8 bits. La Tabla 1
muestra los distintos múltiplos del byte
con algunos ejemplos de los ámbitos
estático y dinámico de la información,
tomando como base el año 2014.

Una solución a las limitaciones de
Excel procedió de los sistemas de
gestión de bases de datos relaciona-
les (RDBMS), que utilizan lenguaje de
consultas estructurado (SQL) para
definir consultas y actualizar la base
de datos. Las empresas líderes en el

mercado de sistemas de bases de da-
tos son Oracle, IBM y Microsoft.

Estos sistemas se diseñaron para la
retención de datos estructurados, en
lugar de para asimilar un crecimiento
vertiginoso de los mismos y la mayoría
de las veces presentándose en forma
no estructurada o semiestructurada,
lo que hace de ellos una herramienta
extraordinariamente costosa si la qui-
siéramos utilizar para manejar y alma-
cenar datos masivos. Por ejemplo, se
pueden consultar las especificaciones
de capacidad máxima para un servi-
dor SQL en 2014 en la web:

http://msdn.microsoft.com/en-us/

library/ms143432.aspx

La conclusión a la que se llega es
la incapacidad de las bases de datos
tradicionales para dar respuesta a
muchos de los datos que aparecen
ahora en las empresas. Por ejemplo, la
información que se genera cada día a
través de la opinión de los clientes de
una marca en las redes sociales como
Facebook, Twitter, etc.

El término “big data”:
definiciones y tipos. Internet
de las cosas

Desde hace unos años (especial-
mente los dos últimos años), se ha

venido observando que las cantidades
masivas de datos recogidas a lo largo
del tiempo responden al concepto de
big data. Se han propuesto varias de-
finiciones para este término, aunque
todavía no hay una definición uni-
versal al respecto (http://datascience.
berkeley.edu/what-is-big-data/ recoge
más de 40 definiciones). La Organiza-
ción Mundial de Normalización (ISO)
ha creado un grupo de trabajo que
va a redactar la norma de vocabulario
ISO 3534-5, dedicada al mundo del big
data y la analítica predictiva. Mientras
llega esa definición universal comenta-
mos algunas de las más utilizadas.

La definición que proporciona el dic-
cionario de inglés de Oxford es “datos
de tamaño muy grande, típicamente
hasta el extremo de que su gestión
presenta retos logísticos significativos”.
El estudio publicado por McKinsey
Global Institute (MGI) en junio de 2011:

http://www.mckinsey.com/insights/
business_technology/big_data_the_

next_frontier_for_innovation

iluminó el sentido de la definición
anterior al definir big data como “con-
juntos de datos cuyo tamaño va más
allá de la capacidad de captura, alma-
cenado, gestión y análisis de las herra-
mientas de base de datos”.

Tabla 1. Unidades básicas de información y tratamiento de datos

Nombre

Símbolo

Sistema

internacional

Ejemplo 2014 estático

Ejemplo 2014 dinámico

Byte

Kilobyte

Megabyte

Gigabyte

Terabyte

Petabyte

Exabyte

Zettabyte

Yottabyte

Xerabyte

B

KB

MB

GB

TB

PB

EB

ZB

YB

XB

100 bytes

103 bytes

106 bytes

109 bytes

1012 bytes

1015 bytes

1018 bytes

1021 bytes

1024 bytes

1027 bytes

1 B es un número de 0 a 255

2 KB es aproximadamente un sector de CD-ROM

3 MB es aproximadamente una canción

de 3 minutos

8/16 GB es el tamaño estándar de mercado

de un pen-drive

4 MB/min en llamadas de vídeo por Skype

4 GB/hora de vídeo de alta calidad

4 TB es el tamaño de un disco de 120 € que

20 TB/hora es la información generada por un

almacena 800.000 fotos o canciones mp3

motor de avión en el aire

2 PB es la información almacenada en todas las
bibliotecas de investigación académicas de USA

24 PB/día es la información recogida por Google

5 EB es aproximadamente todas las palabras
pronunciadas por todos los seres humanos

966 EB es aproximadamente la predicción del

volumen total de Internet en 2015

Se estimó que en 2012 la capacidad instalada
de almacenamiento de información en el mundo

5 ZB/año es la cantidad de datos digitales pro-
medio que se van a generar en la Tierra en los

sería de 2,5 ZB.

próximos 8 años

1 YB equivale a la capacidad del Data Center

inaugurado por la NASA en 2013

1 XB equivale a 1.257.000 iPad 3 de máxima

capacidad por cada habitante de la tierra

Big data. Un nuevo paradigma de análisis de datos 11

En 2012 Gartner definió big data
como “activos de información carac-
terizados por su volumen elevado, ve-
locidad elevada y alta variedad, que
demandan soluciones innovadoras y efi-
cientes de procesado para la mejora del
conocimiento y la toma de decisiones
en las organizaciones”. Esta definición
hace mención a las 3 famosas “V” de
los big data: Volumen, Velocidad y Ve-
racidad (Figura 1); cuyos detalles se
pueden consultar en el libro blanco
de Fujitsu –Mitchell et al. (2012)– y
en Zicari (2014). Adicionalmente se
han propuesto nuevas “V” como Va-
lor, Veracidad y Visualización; o incluso
Volatilidad, Validez y Viabilidad.

Los tipos de datos en las aplica-
ciones de big data se muestran en la
Tabla 2.

Las redes sociales como Facebook,
Twitter, Linkedin, etc., son uno de los
más reconocidos caladeros para ob-
tener datos masivos, habiendo dado
lugar a una línea de investigación im-
portante, que es el análisis del senti-
miento. Una de sus ramificaciones es
la incidencia que tiene en las finanzas
(ver, por ejemplo, Cerchiello and Giu-
dici [2014]).

Otra fuente de generación ingente
de big data en los próximos años va
a ser el Internet de las cosas, cuyos
detalles se pueden consultar en:

http://www.cisco.com/web/LA/
soluciones/executive/assets/pdf/
internet-of-things-iot-ibsg.pdf

Se trata de todos los datos que se
generan entre persona y máquina o
entre máquina y máquina (Tabla 2),
que como ocurre con los datos de las
redes so
  • Links de descarga
http://lwp-l.com/pdf19268

Comentarios de: Big data. Un nuevo paradigma de análisis de datos (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad