SQL - pyspark dataframe in sql

 
Vista:
sin imagen de perfil

pyspark dataframe in sql

Publicado por BathanF (8 intervenciones) el 09/03/2023 09:28:26
Tengo un conjunto de datos para el que quiero calcular el rango por fila. Este es un ejemplo de juguete panda.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import pandas as pd
df = pd.DataFrame({"ID":[1,2,3,4], "a":[2,7,9,10],
                   "b":[6,7,4,2], "c":[3,4,8,5]})
print(df)
 
#    ID   a  b  c
# 0   1   2  6  3
# 1   2   7  7  4
# 2   3   9  4  8
# 3   4  10  2  5
 
df[["a","b","c"]] = df[["a","b","c"]].rank(method="min",
                                           ascending=False,
                                           axis=1).astype("int")
print(df)
 
#    ID  a  b  c
# 0   1  3  1  2
# 1   2  1  1  3
# 2   3  1  3  2
# 3   4  1  3  2

Sin embargo, como no pude ubicar un equivalente de axis=1 en Pyspark, no pude convertirlo. Mi conjunto de datos consta de 60 millones de filas y 40 columnas, por lo que la recomendación debería ser práctica (p. ej., no puedo recorrerlas).
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder