Pyspark Самый дорогой продукт - PullRequest
0 голосов
/ 06 мая 2020

Я пытаюсь получить самый дорогой продукт с помощью PySpark. Мне в основном нужно перевести этот запрос из SQL в pyspark:

%sql

SELECT product, item_price as price
FROM lotstemp
ORDER BY item_price DESC
LIMIT 1

Может ли кто-нибудь помочь мне написать этот запрос в PySpark?

1 Ответ

0 голосов
/ 06 мая 2020

Вы можете напрямую запустить sql in Spark, зарегистрировав фрейм данных как временную таблицу, например

df.createOrReplaceTempTable('lotstemp')
df=spark.sql('SELECT product, item_price as price FROM lotstemp ORDER BY item_price DESC LIMIT 1')

, или если вы хотите использовать API фрейма данных, вы можете сделать это следующим образом:

df1 = df.orderBy(f.desc('State')).limit(1)

Надеюсь, это поможет.

...