Hola,
Estoy intentando obtener un rdd a partir de un dataframe. Después, quiero obtener un histograma de frecuencias con ese rdd. Pero al intentar el paso de dataframe a rdd, el rdd que obtengo no lo puedo tratar como necesito. Los pasos que sigo son:
de manera que obtengo lo siguiente:
No sé porqué sale la parte dónde pone 'Row'.
Lo que quiero es juntarlo todo y crear un rdd a partir de ello, sumando los valores correspondientes a desayuno, almuerzo, comida, merienda y cena de todas las líneas.
He intentado obtenerlo como un string, de la siguiente manera:
Creo un nuevo rdd con el string resultante, y obtengo lo siguiente:
Después, según literatura que he leído, lo siguiente debería funcionar.
Pero no funciona. Tengo varias dudas:
¿Porqué me sale al principio el 'Row' al pasar de dataframe a rdd?¿Como podría hacer que no saliera?
¿Porqué no funciona la obtención de las frecuencias? Es cierto que no quiero obtener la frecuencia de una palabra, sino de un grupo de palabras, ¿podría ser ese el problema para que no obtenga lo que busco?
Cualquier orientación sería de gran ayuda.
Por cierto, estoy trabajando con python y pyspark, sin ningún entorno ni similar.
Muchas gracias