
Optimización de Dataframes en Python
Publicado por Quitri (1 intervención) el 13/03/2018 11:36:02
Hola a todos,
Soy bastante nuevo en Python y me estoy aventurando con los Dataframes, usando un cluster de Apache Spark.
Tengo dudas en cosas básicas (supongo) sobre rendimiento en las operaciones con Dataframes con Python.
- Dados dos Dataframe, ¿se podría realizar un producto cartesiano nXm y posteriomente filtrarlos para quedarme con un grupo más reducido?. ¿Sería mejor realizar el filtro por separado realizando un join entre ambos Dataframe?.
- ¿Se puede dimensionar el cluster en función del volumen de los dos dataframes?.
- ¿Se puede crear un dataframe donde una de las posiciones sea un array?.
Os agradecería un poco de ayuda o si me podríais indicar enlaces de lectura, a ver si puedo ver un poco de luz al final del túnel.
Muchas gracias por anticipado.
Soy bastante nuevo en Python y me estoy aventurando con los Dataframes, usando un cluster de Apache Spark.
Tengo dudas en cosas básicas (supongo) sobre rendimiento en las operaciones con Dataframes con Python.
- Dados dos Dataframe, ¿se podría realizar un producto cartesiano nXm y posteriomente filtrarlos para quedarme con un grupo más reducido?. ¿Sería mejor realizar el filtro por separado realizando un join entre ambos Dataframe?.
- ¿Se puede dimensionar el cluster en función del volumen de los dos dataframes?.
- ¿Se puede crear un dataframe donde una de las posiciones sea un array?.
Os agradecería un poco de ayuda o si me podríais indicar enlaces de lectura, a ver si puedo ver un poco de luz al final del túnel.
Muchas gracias por anticipado.
Valora esta pregunta


0