Question

SELECT county, state, deaths, cases, count (*) as count FROM table GROUP BY county, state, deaths, cases HAVING count(*)>1

Я получаю следующие данные из вышеуказанного запроса через SQL. То, что я хочу, это преобразовать этот SQL запрос в оба *

Pandas
и PySpark

Пожалуйста, дайте мне знать, так как я новичок в Pandas и PySpark

Примечание - я не знаю я не хочу использовать spark.sql вместо этого я хочу использовать spark.table для чтения из таблицы и выполнения вышеупомянутых операций.

Prateek Jain · Answer 1 · 26 апреля 2020

Это будет go примерно так:

df = spark.table("table_name).groupBy(["county", "state", "deaths", "cases"]) \
          .agg(F.count("*").alias("count_rows")).filter("count_rows > 1")

Кроме того, проект, над которым вы работаете, похож на тот, который подробно описан здесь. Вы должны взглянуть - https://www.youtube.com/watch?v=fsLQRmednFA&list=PLI57HEydB_p7ICY54CyPtaITuanVZLKTr

Как преобразовать запрос sql в Pandas Dataframe и PySpark Dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать запрос sql в Pandas Dataframe и PySpark Dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы