Как преобразовать запрос sql в Pandas Dataframe и PySpark Dataframe - PullRequest
0 голосов
/ 22 апреля 2020
SELECT county, state, deaths, cases, count (*) as count FROM table GROUP BY county, state, deaths, cases HAVING count(*)>1

Я получаю следующие данные из вышеуказанного запроса через SQL. То, что я хочу, это преобразовать этот SQL запрос в оба *

  • Pandas

  • и PySpark

enter image description here

Пожалуйста, дайте мне знать, так как я новичок в Pandas и PySpark

Примечание - я не знаю я не хочу использовать spark.sql вместо этого я хочу использовать spark.table для чтения из таблицы и выполнения вышеупомянутых операций.

1 Ответ

0 голосов
/ 26 апреля 2020

Это будет go примерно так:

df = spark.table("table_name).groupBy(["county", "state", "deaths", "cases"]) \
          .agg(F.count("*").alias("count_rows")).filter("count_rows > 1")

Кроме того, проект, над которым вы работаете, похож на тот, который подробно описан здесь. Вы должны взглянуть - https://www.youtube.com/watch?v=fsLQRmednFA&list=PLI57HEydB_p7ICY54CyPtaITuanVZLKTr

...