Python - Borrar líneas de un RDD con una función

   
Vista:

Borrar líneas de un RDD con una función

Publicado por Graciela (1 intervención) el 22/06/2017 13:30:29
Hola,
soy nueva en python(pyspark) y me está costando bastante.
Tengo un RDD y lo que quiero es borrar todas las líneas del RDD que tengan caracteres diferentes a '129SH'.
Esto lo quiero hacer con una función en python.
Imagen mi RDD:
50
44
AH
S9
1H
9A
9H

Al aplicar mi función quedaría así el RDD:
S9
1H
9H


Espero que los maestros del python me puedan ayudar porque tengo la sensación de que es muy sencillo y estoy realmente atascada.
Gracias ^^
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de kip

Borrar líneas de un RDD con una función

Publicado por kip (160 intervenciones) el 22/06/2017 15:15:25
Hola, creo que puedes usar filter() para lo que necesitas
https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.filter

Es una lista no ? O tengo una mala referencia del elemento que mencionas ?
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar

Borrar líneas de un RDD con una función

Publicado por Graciela (1 intervención) el 22/06/2017 16:11:14
Pero necesito una función que lo haga sobre una línea y después aplicarlo sobre todo el RDD fila por fila.
Lo del filter lo he visto pero no se cómo aplicarlo a esto.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar