Publicado el 18 de Agosto del 2019
1.160 visualizaciones desde el 18 de Agosto del 2019
5,2 MB
85 paginas
Creado hace 7a (20/01/2017)
Máster en Big Data y Data Science
20/01/2017
Estadística
Estadística
Francisco de Borja Rodríguez Ortiz
Contenido
1. Introducción
¿Que es la estadística?
Modelo estadístico
Método estadístico
Algunas herramientas de análisis de datos mediante estadística
2. Datos
Descripción de una sola variable
Descripción conjunta de varias variables
3. Modelos
Probabilidad y variables aleatorias
Modelos de distribución de probabilidad
Modelos Multivariantes
4. Inferencia estadística
Estimación puntual
Estimación por intervalos
Estimación bayesiana
Contraste de hipótesis
Máster en Big Data y Data Science
Estadística
1
Introducción
Introducción
¿Que es la estadística?
Modelo estadístico
Método estadístico
Construir un Modelo estadístico
Algunas herramientas de análisis de datos mediante estadística
(además de Python): Matlab y SPSS
Máster en Big Data y Data Science
Estadística
2
Introducción
¿Que es la estadística?
Es la ciencia que estudia como obtener conclusiones de la investigación
empírica mediante el uso de modelos matemáticos.
Actúa como vínculo en los modelos matemáticos y los fenómenos reales.
Un modelo matemático es una abstracción simplificada de algún
aspecto de la realidad más compleja.
Siempre existen discrepancias entre el modelo y lo que representa este en
la realidad.
La estadística proporciona una metodología para medir esas
discrepancias (fundamental en ciencia aplicada, como tecnología,
economía, sociología, medicina, y hoy en día en Big Data, etc.).
Es la tecnología del método científico experimental.
Máster en Big Data y Data Science
Estadística
3
¿Que problemas puede resolver?
Introducción
Descripción de datos: permite resumir la información contenida en los datos.
Análisis de muestras: No es posible en algunos caso estudiar todos los elementos
de una población. Así dada una muestra representativa se pueden hacer inferencias
respecto la población completa. La inferencia se puede realizar mediante un modelo
probabilístico obtenido de la muestra. Hoy en día con Big Data, casi se puede tener
una población.
Contrastación de hipótesis: En investigación empírica es fundamental la
contrastación de hipótesis. Nos permiten comparar las predicciones resultantes de la
hipótesis con los datos observados.
Medición de relaciones: las relaciones que observamos entre variables físicas,
sociales y técnicas son prácticamente siempre estadísticas, por los errores de
medición.
Predicción: el estudio de la historia de variables estadísticas permite inferir valores
futuros.
Máster en Big Data y Data Science
Estadística
4
Introducción: Método estadístico
Datos
Información
Conocimiento
Síntesis y resumen
Estadística
Descriptiva
Modelo univariante
o multivariante
Estadística
Inferencial
Estadística descriptiva: recolecta, ordena, analiza y representa a un conjunto de datos,
con el fin de describir apropiadamente las características de este y así resumirlos.
Calcula que parámetros estadísticos el conjunto de datos: gráficos, medidas de frecuencias,
centralización, posición, dispersión, etc.
La estadística inferencial: saca conclusiones generales para toda la población a partir
del estudio de una muestra (para un grado de fiabilidad o significación de los
resultados obtenidos.
Utiliza herramientas como el muestreo, la estimación de parámetros, el contraste de hipótesis, etc.
Máster en Big Data y Data Science
Estadística
5
Introducción: Modelo estadístico
El Modelo estadístico descompone una variable respuesta de estudio en dos valores:
Parte predecible o sistemática
Parte aleatoria, impredecible o residual.
Así el modelo estadístico define la forma de la parte predecible (respuesta media), y la
variabilidad de la impredecible respecto a la respuesta media.
Observación=parte sistemática (predecible) + parte aleatoria (impredecible).
En un problema real, en definitiva un variable respuesta y (o varias yi en el caso
multivariante), será función de otras variables de número desconocido (incluso no
observables), siendo el modelo estadístico un acercamiento aproximación de esta
realidad.
Esta aproximación tiene en cuenta las variables observables presumiblemente más importantes y
engloba en la parte aleatoria los efectos del resto de variables que no se tienen en cuenta.
Para el cálculo de modelos estadísticos se suele utilizar distribuciones de
probabilidad.
Máster en Big Data y Data Science
Estadística
6
Introducción: Método estadístico
Parte sistemática
Parte aleatoria (y-recta)
i
n
o
i
s
s
e
r
g
e
r
_
r
a
e
n
i
L
/
k
w
/
g
r
o
a
d
e
p
k
w
n
e
/
/
:
s
p
i
.
i
i
i
.
t
t
h
Máster en Big Data y Data Science
Estadística
7
e
d
a
d
a
c
a
s
o
t
o
f
a
l
e
d
e
t
r
a
P
Introducción: Etapas para construir un Modelo estadístico
o
c
i
t
s
í
d
a
t
s
e
o
e
d
o
m
l
i
l
e
d
o
t
n
e
m
a
n
i
f
e
r
y
n
ó
i
c
c
u
r
t
s
n
o
C
Problema Real
Planteamiento del problema
Modelo estadístico
Calculo de probabilidades
Recogida de información muestral
Muestreo en experimentos
Depuración delos datos
Análisis de datos
Estimación de los parámetros del modelo
Contrastes de simplificación
Citica y diagnosis del modelo
Teoría de estimación
Contrastes de hipótesis
Análisis de datos
¿Es el modelo
adecuado?
Decisiones
Conocimiento científico
Previsiones
Máster en Big Data y Data Science
Estadística
8
Introducción: Metodología Estadística y Big Data
El Big Data empieza a cambiar la metodología vista anteriormente de
estadística:
Según lo que hemos mostrado anteriormente, generalmente tenemos un problema real que
queremos resolver, así empezamos a tomar datos mediante un muestreo de una población
definida orientados a resolver ese problema. Es decir no tenemos los datos al principio.
Sin embargo en Big Data, tenemos los datos al principio y empezamos ha hacer un
análisis exploratorio para aprender sus estructuras.
Generalmente en estadística proponemos un modelo para hacer inferencia respecto unos
parámetros del modelo que ajusto con la población.
Con Big Data es muy difícil hacer esto, no sabemos como parametrizar en algunos casos.
En estadística es muy importante como extraer de la muestra la máxima información
(eficiencia estadística) que me pueda dar a conocer la población de la que proviene esa
muestra.
En Big Data no es tan importante la eficiencia estadística ya que en algunos casos
tenemos casi la población.
Máster en Big Data y Data Science
Estadística
9
Introducción: Algunas Herramientas - Matlab
Introducción
Tipos de elementos
Tipos de estructuras de datos
Importar ficheros cvs
Histogramas
Medidas de centralidad y posición
Medidas de forma
Diagramas de caja (boxplot)
Q-Qplots
Diagramas de dispersión e histogramas
Máster en Big Data y Data Science
Estadística
10
Introducción
Matlab (abreviatura de MATrix LABoratory, "laboratorio de matrices") es un software matemático comercial, cuya
función principal es análisis de datos:
Entorno de desarrollo integrado (IDE).
Lenguaje de programación propio (lenguaje M).
¿Qué puede hacer Matlab?
Manipulación de matrices
representación de datos y funciones
implementación de algoritmos
creación de interfaces de usuario (GUI)
Comunicación con programas en otros lenguajes y con otros dispositivos hardware.
MATLAB dispone de dos herramientas adicionales:
Simulink (plataforma de simulación multidominio)
GUIDE (editor de interfaces de usuario - GUI)
Paquetes para ampliar las capacidades de Matlab:
Cajas de herramientas (toolboxes)
Y las de Simulink:
Paquetes de bloques (blocksets)
Es un software muy usado en universidades, centros de investigación y desarrollo.
í
e
d
a
d
a
r
t
x
e
n
e
g
a
m
I
i
i
B
A
L
T
A
M
/
k
w
/
g
r
o
a
d
e
p
k
w
i
i
.
i
.
s
e
/
/
:
s
p
t
t
h
Máster en Big Data y Data Science
Estadística
11
Introducción
Por ejemplo, la Toolbox Statistics proporciona un conjunto
completo de herramientas para evaluar e interpretar datos:
Organización y gestión de datos
Estadística descriptiva
Elaboración de gráficos estadísticos y visualización de datos
Distribuciones de probabilidades
Modelo lineal y no lineal
Contrastes de hipótesis
Estadística multivariante
Etc.
Máster en Big Data y Data Science
Estadística
12
Tipos de elementos
Los tipos de elementos en Matlab para generar expresiones:
Números
Decimales
Notación científica
Números imaginarios
% Números decimales
d1=10, d2=+2, d3=-15, d4=2.1, d5=-2.5
% Notación científica
c1=0.416e+1, c2=0.0000416e5, c3=4.16e-2
% Números imaginarios
i1=3i, i2=3j, i3=-1.6*i, i4=2.1e4*i
d1 =
10
d2 =
2
d3 =
-15
d4 =
2.1000
d5 =
-2.5000
c1 =
4.1600
c2 =
4.1600
c3 =
0.3416
i1 =
0.0000 + 3.0000i
i2 =
0.0000 + 3.0000i
i3 =
0.0000 - 1.6000i
i4 =
2.0000e+00 + 2.1000e+04
Máster en Big Data y Data Science
Estadística
13
Tipos de elementos
Los tipos de elementos en Matlab para generar expresiones:
Variables: no requiere declaración del tipo de variable, ya que son
consideradas como matrices de tamaño variable.
Por defecto se inicializan a 0.
El nombre de la variable siempre empieza por una letra seguida por letras,
dígitos y “_”, máximo 31 (son los que se leen).
Se distingue entre mayúsculas y minúsculas.
También se pueden usar como variables lógicas.
% Variables lógicas
if (0), disp('0 equivale a False'), end
if (1), disp('1 equivale a True'), end
a_1=21; if (a_1), disp('a_1 distinto 0 equivale a True'), end
if (~0), disp(' ~ 0 equivale a True'), end
Salida en la terminal:
1 equivale a True
a_1 distinto 0 equivale a True
~ 0 equivale a True
Máster en Big Data y Data Science
Estadística
14
Tipos de elementos
Los tipos de elementos en
Comentarios de: Estadística - Máster en Big Data y Data Science (0)
No hay comentarios