PDF de programación - Estadística - Máster en Big Data y Data Science

Imágen de pdf Estadística - Máster en Big Data y Data Science

Estadística - Máster en Big Data y Data Sciencegráfica de visualizaciones

Publicado el 18 de Agosto del 2019
136 visualizaciones desde el 18 de Agosto del 2019
5,2 MB
85 paginas
Creado hace 2a (20/01/2017)
Máster en Big Data y Data Science

20/01/2017

Estadística

Estadística

Francisco de Borja Rodríguez Ortiz

Contenido

 1. Introducción

 ¿Que es la estadística?

 Modelo estadístico

 Método estadístico

 Algunas herramientas de análisis de datos mediante estadística

 2. Datos

 Descripción de una sola variable

 Descripción conjunta de varias variables

 3. Modelos

 Probabilidad y variables aleatorias

 Modelos de distribución de probabilidad

 Modelos Multivariantes

 4. Inferencia estadística

 Estimación puntual

 Estimación por intervalos

 Estimación bayesiana

 Contraste de hipótesis

Máster en Big Data y Data Science

Estadística

1

Introducción

 Introducción

 ¿Que es la estadística?

 Modelo estadístico

 Método estadístico

 Construir un Modelo estadístico

 Algunas herramientas de análisis de datos mediante estadística

(además de Python): Matlab y SPSS

Máster en Big Data y Data Science

Estadística

2

Introducción

 ¿Que es la estadística?

 Es la ciencia que estudia como obtener conclusiones de la investigación

empírica mediante el uso de modelos matemáticos.

 Actúa como vínculo en los modelos matemáticos y los fenómenos reales.

 Un modelo matemático es una abstracción simplificada de algún

aspecto de la realidad más compleja.
 Siempre existen discrepancias entre el modelo y lo que representa este en

la realidad.

 La estadística proporciona una metodología para medir esas

discrepancias (fundamental en ciencia aplicada, como tecnología,
economía, sociología, medicina, y hoy en día en Big Data, etc.).

 Es la tecnología del método científico experimental.

Máster en Big Data y Data Science

Estadística

3

 ¿Que problemas puede resolver?

Introducción

 Descripción de datos: permite resumir la información contenida en los datos.
 Análisis de muestras: No es posible en algunos caso estudiar todos los elementos

de una población. Así dada una muestra representativa se pueden hacer inferencias
respecto la población completa. La inferencia se puede realizar mediante un modelo
probabilístico obtenido de la muestra. Hoy en día con Big Data, casi se puede tener
una población.

 Contrastación de hipótesis: En investigación empírica es fundamental la

contrastación de hipótesis. Nos permiten comparar las predicciones resultantes de la
hipótesis con los datos observados.

 Medición de relaciones: las relaciones que observamos entre variables físicas,

sociales y técnicas son prácticamente siempre estadísticas, por los errores de
medición.

 Predicción: el estudio de la historia de variables estadísticas permite inferir valores

futuros.

Máster en Big Data y Data Science

Estadística

4

Introducción: Método estadístico

Datos

Información

Conocimiento

Síntesis y resumen

Estadística
Descriptiva

Modelo univariante

o multivariante

Estadística
Inferencial





Estadística descriptiva: recolecta, ordena, analiza y representa a un conjunto de datos,
con el fin de describir apropiadamente las características de este y así resumirlos.
 Calcula que parámetros estadísticos el conjunto de datos: gráficos, medidas de frecuencias,

centralización, posición, dispersión, etc.

La estadística inferencial: saca conclusiones generales para toda la población a partir
del estudio de una muestra (para un grado de fiabilidad o significación de los
resultados obtenidos.



Utiliza herramientas como el muestreo, la estimación de parámetros, el contraste de hipótesis, etc.

Máster en Big Data y Data Science

Estadística

5

Introducción: Modelo estadístico



El Modelo estadístico descompone una variable respuesta de estudio en dos valores:
 Parte predecible o sistemática

 Parte aleatoria, impredecible o residual.

 Así el modelo estadístico define la forma de la parte predecible (respuesta media), y la



variabilidad de la impredecible respecto a la respuesta media.
 Observación=parte sistemática (predecible) + parte aleatoria (impredecible).
En un problema real, en definitiva un variable respuesta y (o varias yi en el caso
multivariante), será función de otras variables de número desconocido (incluso no
observables), siendo el modelo estadístico un acercamiento aproximación de esta
realidad.
 Esta aproximación tiene en cuenta las variables observables presumiblemente más importantes y

engloba en la parte aleatoria los efectos del resto de variables que no se tienen en cuenta.



Para el cálculo de modelos estadísticos se suele utilizar distribuciones de
probabilidad.

Máster en Big Data y Data Science

Estadística

6

Introducción: Método estadístico

Parte sistemática

Parte aleatoria (y-recta)

i

n
o
i
s
s
e
r
g
e
r
_
r
a
e
n
i
L
/
k
w
/
g
r
o
a
d
e
p
k
w
n
e
/
/
:
s
p

i

.

i

i

i

.

t
t
h

Máster en Big Data y Data Science

Estadística

7

e
d



a
d
a
c
a
s

o
t
o
f

a

l

e
d

e
t
r
a
P

Introducción: Etapas para construir un Modelo estadístico

o
c
i
t
s
í
d
a
t
s
e

o
e
d
o
m

l

i


l
e
d

o
t
n
e
m
a
n
i
f
e
r

y

n
ó
i
c
c
u
r
t
s
n
o
C

Problema Real

Planteamiento del problema

Modelo estadístico

Calculo de probabilidades

Recogida de información muestral

Muestreo en experimentos

Depuración delos datos

Análisis de datos

Estimación de los parámetros del modelo

Contrastes de simplificación

Citica y diagnosis del modelo

Teoría de estimación
Contrastes de hipótesis
Análisis de datos

¿Es el modelo

adecuado?

Decisiones

Conocimiento científico

Previsiones

Máster en Big Data y Data Science

Estadística

8

Introducción: Metodología Estadística y Big Data

 El Big Data empieza a cambiar la metodología vista anteriormente de

estadística:
 Según lo que hemos mostrado anteriormente, generalmente tenemos un problema real que
queremos resolver, así empezamos a tomar datos mediante un muestreo de una población
definida orientados a resolver ese problema. Es decir no tenemos los datos al principio.

 Sin embargo en Big Data, tenemos los datos al principio y empezamos ha hacer un

análisis exploratorio para aprender sus estructuras.

 Generalmente en estadística proponemos un modelo para hacer inferencia respecto unos

parámetros del modelo que ajusto con la población.

 Con Big Data es muy difícil hacer esto, no sabemos como parametrizar en algunos casos.

 En estadística es muy importante como extraer de la muestra la máxima información

(eficiencia estadística) que me pueda dar a conocer la población de la que proviene esa
muestra.

 En Big Data no es tan importante la eficiencia estadística ya que en algunos casos

tenemos casi la población.

Máster en Big Data y Data Science

Estadística

9

Introducción: Algunas Herramientas - Matlab

 Introducción

 Tipos de elementos

 Tipos de estructuras de datos

 Importar ficheros cvs

 Histogramas

 Medidas de centralidad y posición

 Medidas de forma

 Diagramas de caja (boxplot)

 Q-Qplots

 Diagramas de dispersión e histogramas

Máster en Big Data y Data Science

Estadística

10

Introducción

 Matlab (abreviatura de MATrix LABoratory, "laboratorio de matrices") es un software matemático comercial, cuya

función principal es análisis de datos:





Entorno de desarrollo integrado (IDE).

Lenguaje de programación propio (lenguaje M).



¿Qué puede hacer Matlab?

 Manipulación de matrices









representación de datos y funciones

implementación de algoritmos

creación de interfaces de usuario (GUI)

Comunicación con programas en otros lenguajes y con otros dispositivos hardware.

 MATLAB dispone de dos herramientas adicionales:



Simulink (plataforma de simulación multidominio)

 GUIDE (editor de interfaces de usuario - GUI)





Paquetes para ampliar las capacidades de Matlab:

 Cajas de herramientas (toolboxes)

Y las de Simulink:

 Paquetes de bloques (blocksets)



Es un software muy usado en universidades, centros de investigación y desarrollo.

í



e
d
a
d
a
r
t
x
e

n
e
g
a
m

I

i

i

B
A
L
T
A
M
/
k
w
/
g
r
o
a
d
e
p
k
w

i

i

.

i

.
s
e
/
/
:
s
p

t
t
h

Máster en Big Data y Data Science

Estadística

11

Introducción

 Por ejemplo, la Toolbox Statistics proporciona un conjunto

completo de herramientas para evaluar e interpretar datos:

 Organización y gestión de datos

 Estadística descriptiva

 Elaboración de gráficos estadísticos y visualización de datos

 Distribuciones de probabilidades

 Modelo lineal y no lineal

 Contrastes de hipótesis

 Estadística multivariante

 Etc.

Máster en Big Data y Data Science

Estadística

12

Tipos de elementos
 Los tipos de elementos en Matlab para generar expresiones:

 Números

 Decimales

 Notación científica

 Números imaginarios

% Números decimales
d1=10, d2=+2, d3=-15, d4=2.1, d5=-2.5

% Notación científica
c1=0.416e+1, c2=0.0000416e5, c3=4.16e-2

% Números imaginarios
i1=3i, i2=3j, i3=-1.6*i, i4=2.1e4*i

d1 =

10

d2 =

2

d3 =

-15

d4 =

2.1000

d5 =

-2.5000

c1 =

4.1600

c2 =

4.1600

c3 =

0.3416

i1 =

0.0000 + 3.0000i

i2 =

0.0000 + 3.0000i

i3 =

0.0000 - 1.6000i

i4 =

2.0000e+00 + 2.1000e+04

Máster en Big Data y Data Science

Estadística

13

Tipos de elementos

 Los tipos de elementos en Matlab para generar expresiones:

 Variables: no requiere declaración del tipo de variable, ya que son

consideradas como matrices de tamaño variable.

 Por defecto se inicializan a 0.

 El nombre de la variable siempre empieza por una letra seguida por letras,

dígitos y “_”, máximo 31 (son los que se leen).

 Se distingue entre mayúsculas y minúsculas.

 También se pueden usar como variables lógicas.

% Variables lógicas
if (0), disp('0 equivale a False'), end
if (1), disp('1 equivale a True'), end
a_1=21; if (a_1), disp('a_1 distinto 0 equivale a True'), end
if (~0), disp(' ~ 0 equivale a True'), end

Salida en la terminal:

1 equivale a True
a_1 distinto 0 equivale a True
~ 0 equivale a True

Máster en Big Data y Data Science

Estadística

14

Tipos de elementos

 Los tipos de elementos en
  • Links de descarga
http://lwp-l.com/pdf16474

Comentarios de: Estadística - Máster en Big Data y Data Science (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios
Es necesario revisar y aceptar las políticas de privacidad

Revisar política de publicidad