Python - Preprocesamiento de datos

 
Vista:
sin imagen de perfil
Val: 11
Ha disminuido su posición en 8 puestos en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por Nerr (3 intervenciones) el 15/05/2019 21:35:01
Hola a todos,

necesito ayuda con un ejercicio. Estoy empezando a aprender Python y no entiendo mucho.

Debo cargar los datos del fichero que adjunto en un dataframe. Me piden hacer lo siguiente:

1. Definir una función para calcular el número de muestras que tienen al menos dos valores perdidos. ¿Cúantas muestras tienen al menos dos valores perdidos?

2. Eliminar las muestras que tengan algún valor perdido en cualquiera de los atributos.

3. Definir una función que seleccione aquellas filas que no contengan valores atípicos (outliers) para un determinado atributo. Aplicar el significado de valor atípico leve. Los parámetros de entrada de la función deben ser el dataframe original y el nombre de la columna a evaluar. La función tiene que devolver el dataframe modificado (si corresponde), eliminando las filas que tengan valores atípicos en el atributo indicado. Utilizar la función anterior para calcular el número de valores no atípicos que tiene el atributo outs86.

Agradezco la ayuda. Muchas gracias.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
-1
Responder
Imágen de perfil de xve
Val: 1.421
Oro
Ha mantenido su posición en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por xve (1637 intervenciones) el 16/05/2019 07:35:46
Hola Nerr, que es un valor perdido?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
sin imagen de perfil
Val: 11
Ha disminuido su posición en 8 puestos en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por Nerr (3 intervenciones) el 16/05/2019 08:55:35
Hola,

son aquellos valores que aparecen como NaN.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
Imágen de perfil de joel
Val: 1.380
Oro
Ha aumentado 1 puesto en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por joel (231 intervenciones) el 16/05/2019 19:05:25
Aquí tienes como encontrar los que tienes dos o mas NaN:
1
2
3
4
5
with open('Deporte.csv', 'r') as fp:
    for line in fp:
        listaValores=line.split(",")
        if len([i for i in listaValores if i=="NaN"])>=2:
            print(line)
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
Imágen de perfil de joel
Val: 1.380
Oro
Ha aumentado 1 puesto en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por joel (231 intervenciones) el 16/05/2019 19:09:44
Aquí tienes como generar un nuevo archivo sin esas lineas:
1
2
3
4
5
6
7
8
9
10
11
resultado=[]
with open('Deporte.csv', 'r') as fp:
    for line in fp:
        listaValores=line.split(",")
        if not len([i for i in listaValores if i=="NaN"])>=2:
            resultado.append(line)
 
# guardamos el resultado en el nuevo archivo
with open('Deporte2.csv', 'w') as fp:
    for line in resultado:
        fp.write("{}".format(line))
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar
sin imagen de perfil
Val: 11
Ha disminuido su posición en 8 puestos en Python (en relación al último mes)
Gráfica de Python

Preprocesamiento de datos

Publicado por Nerr (3 intervenciones) el 17/05/2019 11:08:24
Hola Joel,

gracias por tu respuesta. Respecto a los puntos 2 y 3, ¿sabrías cómo hacerlo? Ando muy perdida.

Gracias de antemano por tu ayuda.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar