Python - Optimización de Dataframes en Python

 
Vista:
sin imagen de perfil

Optimización de Dataframes en Python

Publicado por Quitri (1 intervención) el 13/03/2018 11:36:02
Hola a todos,

Soy bastante nuevo en Python y me estoy aventurando con los Dataframes, usando un cluster de Apache Spark.
Tengo dudas en cosas básicas (supongo) sobre rendimiento en las operaciones con Dataframes con Python.

- Dados dos Dataframe, ¿se podría realizar un producto cartesiano nXm y posteriomente filtrarlos para quedarme con un grupo más reducido?. ¿Sería mejor realizar el filtro por separado realizando un join entre ambos Dataframe?.

- ¿Se puede dimensionar el cluster en función del volumen de los dos dataframes?.

- ¿Se puede crear un dataframe donde una de las posiciones sea un array?.

Os agradecería un poco de ayuda o si me podríais indicar enlaces de lectura, a ver si puedo ver un poco de luz al final del túnel.

Muchas gracias por anticipado.
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder