Python - Optimización de Dataframes en Python

Optimización de Dataframes en Python

Publicado por Quitri (1 intervención) el 13/03/2018 11:36:02

Hola a todos,

Soy bastante nuevo en Python y me estoy aventurando con los Dataframes, usando un cluster de Apache Spark.
Tengo dudas en cosas básicas (supongo) sobre rendimiento en las operaciones con Dataframes con Python.

- Dados dos Dataframe, ¿se podría realizar un producto cartesiano nXm y posteriomente filtrarlos para quedarme con un grupo más reducido?. ¿Sería mejor realizar el filtro por separado realizando un join entre ambos Dataframe?.

- ¿Se puede dimensionar el cluster en función del volumen de los dos dataframes?.

- ¿Se puede crear un dataframe donde una de las posiciones sea un array?.

Os agradecería un poco de ayuda o si me podríais indicar enlaces de lectura, a ver si puedo ver un poco de luz al final del túnel.

Muchas gracias por anticipado.

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Limitar la cantidad de caracteres en un input()

Soporte para correr python en Slack o Puppy Linux