Python - Imprimir por consola un rdd con pyspark

 
Vista:

Imprimir por consola un rdd con pyspark

Publicado por Elena (2 intervenciones) el 23/05/2018 15:54:07
Hola!

Estoy buscando información por internet, pero o no la encuentro o no entiendo lo que encuentro. Estoy comenzando a trastear con pyspark, para un PFM que estoy haciendo. Intento cargar un fichero .csv, y después quiero filtrar por determinados valores de una de las columnas del fichero. Estoy probando con uno muy sencillo de prueba. En la consola de pyspark he puesto:

prueba = sc.textFile("PracticandoPFM\Prueba.csv")
con lo que entiendo he creado un rdd llamado prueba. Ahora lo quiero imprimir, quiero ver el contenido de prueba, así que pongo:
print (prueba)

pero obtengo: PracticandoPFM\Prueba.csv MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

¿Como podría ver el contenido del rdd por consola? He visto algo por internet de pasar el rdd a un dataframe, con un schema, e imprimir el schema, pero no he sido capaz de hacerlo.

Lo que en realidad quiero hacer es, filtrar por un determinado valor de un campo del csv, y hacer distintas operaciones. Pero me he quedado atascada desde el principio. Por favor, una ayuda me vendría muy bien, aunque sólo sea la referencia a una web o un tutorial o un manual dónde pueda orientarme.

Este era mi csv de prueba para trastear:

Numerico;Hora;booleano;texto con comas;texto con punto y coma
2;9:00;si;patatas, melones;"patatas, melones; pepinos; fruta: variada"
3;10:23;no;patatas;otra cosa
4;;;;


Muchas gracias
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder